Понимание кода в реализации strlen

У меня есть два вопроса относительно реализации strlen в string.h в glibc.

Реализация использует магическое число с "дырками". Я не могу понять, как это работает. Может кто-то, пожалуйста, помогите мне понять этот фрагмент:

size_t
strlen (const char *str)
{
   const char *char_ptr;
   const unsigned long int *longword_ptr;
   unsigned long int longword, himagic, lomagic;

   /* Handle the first few characters by reading one character at a time.
      Do this until CHAR_PTR is aligned on a longword boundary.  */
   for (char_ptr = str; ((unsigned long int) char_ptr
             & (sizeof (longword) - 1)) != 0;
        ++char_ptr)
     if (*char_ptr == '\0')
       return char_ptr - str;

   /* All these elucidatory comments refer to 4-byte longwords,
      but the theory applies equally well to 8-byte longwords.  */

   longword_ptr = (unsigned long int *) char_ptr;

   /* Bits 31, 24, 16, and 8 of this number are zero.  Call these bits
      the "holes."  Note that there is a hole just to the left of
      each byte, with an extra at the end:

      bits:  01111110 11111110 11111110 11111111
      bytes: AAAAAAAA BBBBBBBB CCCCCCCC DDDDDDDD

      The 1-bits make sure that carries propagate to the next 0-bit.
      The 0-bits provide holes for carries to fall into.  */

    himagic = 0x80808080L;
       lomagic = 0x01010101L;
       if (sizeof (longword) > 4)
       {
           /* 64-bit version of the magic.  */
           /* Do the shift in two steps to avoid a warning if long has 32 bits.  */
           himagic = ((himagic << 16) << 16) | himagic;
             lomagic = ((lomagic << 16) << 16) | lomagic;
         }
       if (sizeof (longword) > 8)
         abort ();

       /* Instead of the traditional loop which tests each character,
          we will test a longword at a time.  The tricky part is testing
          if *any of the four* bytes in the longword in question are zero.  */
       for (;;)
         {
           longword = *longword_ptr++;

           if (((longword - lomagic) & ~longword & himagic) != 0)
         {
           /* Which of the bytes was the zero?  If none of them were, it was
              a misfire; continue the search.  */

           const char *cp = (const char *) (longword_ptr - 1);

           if (cp[0] == 0)
             return cp - str;
           if (cp[1] == 0)
             return cp - str + 1;
           if (cp[2] == 0)
             return cp - str + 2;
           if (cp[3] == 0)
             return cp - str + 3;
           if (sizeof (longword) > 4)
             {
               if (cp[4] == 0)
             return cp - str + 4;
               if (cp[5] == 0)
             return cp - str + 5;
               if (cp[6] == 0)
             return cp - str + 6;
     if (cp[7] == 0)
      return cp - str + 7;
}}}

Для чего используется магическое число?

Почему бы не просто увеличить указатель до символа NULL и числа возврата? Является ли этот подход более быстрым? Почему это так?

Ответ 1

Это используется для поиска 4 байтов (32 бита) или даже 8 (64 бит) за один раз, чтобы проверить, является ли один из них нулем (конец строки) вместо проверки каждого байта отдельно.

Вот один пример проверки нулевого байта:

unsigned int v; // 32-bit word to check if any 8-bit byte in it is 0
bool hasZeroByte = ~((((v & 0x7F7F7F7F) + 0x7F7F7F7F) | v) | 0x7F7F7F7F);

Для более подробной информации см. Бит Tweedling Hacks.

Используемый здесь (32-разрядный пример):

Существует еще более быстрый метод - используйте hasless (v, 1), который определен ниже; он работает в 4 операциях и не требует подсекции проверка. Это упрощает

#define haszero(v) (((v) - 0x01010101UL) & ~(v) & 0x80808080UL)

Подвыражение (v - 0x01010101UL) оценивается как высокий бит, установленный в любой байт, когда соответствующий байт в v равен нулю или больше, чем 0x80. Подвыражение ~ v и 0x80808080UL оценивается с помощью набора высоких бит в байтах, где байт v не имеет своего битового набора (так что байт был меньше 0x80). Наконец, посредством ANDing этих двух подвыражений результатом являются высокие биты, в которых байты в v равны нулю, поскольку высокие биты, установленные из-за значения, превышающего 0x80 в первом подвыражение маскируется вторым.

Глядя на один байт за раз, стоит, по крайней мере, столько циклов процессора, сколько смотрит на полное межсетевое значение (регистр широкий). В этом алгоритме проверяются полные целые числа, чтобы увидеть, содержат ли они нуль. Если нет, используются небольшие инструкции, и можно перейти к следующему полному целому. Если внутри есть нулевой байт, делается еще одна проверка, чтобы увидеть, в какой именно точке оно было.