Как найти позицию бита с единственным битом в 64-битном значении, используя бит-манипуляцию?

Просто скажу, что у меня значение типа uint64_t рассматривается как последовательность октетов (1 октет = 8 бит). Известно значение uint64_t, содержащее только один бит в позиции MSB. Таким образом, значение uint64_t может быть в одном из следующих двоичных представлений:

00000000 00000000 00000000 00000000 00000000 00000000 00000000 10000000  pos = 7
00000000 00000000 00000000 00000000 00000000 00000000 10000000 00000000  pos = 15
00000000 00000000 00000000 00000000 00000000 10000000 00000000 00000000  pos = 23
00000000 00000000 00000000 00000000 10000000 00000000 00000000 00000000  pos = 31
00000000 00000000 00000000 10000000 00000000 00000000 00000000 00000000  pos = 39
00000000 00000000 10000000 00000000 00000000 00000000 00000000 00000000  pos = 47
00000000 10000000 00000000 00000000 00000000 00000000 00000000 00000000  pos = 55
10000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000  pos = 63

Мне нужна быстрая функция, которая возвращает заданную позицию бита, но возвращает 0, если бит не установлен.

Если возможно, я хочу его без каких-либо циклов и ветвлений.

Ответ 1

Умножьте значение на тщательно разработанную 64-битную константу, затем закройте верхние 4 бита. Для любого процессора с быстрым 64-битным умножением это, вероятно, так же оптимально, как вы можете получить.

int field_set(uint64_t input) {
    uint64_t field = input * 0x20406080a0c0e1ULL;
    return (field >> 60) & 15;
}

// field_set(0x0000000000000000ULL) = 0
// field_set(0x0000000000000080ULL) = 1
// field_set(0x0000000000008000ULL) = 2
// field_set(0x0000000000800000ULL) = 3
// field_set(0x0000000080000000ULL) = 4
// field_set(0x0000008000000000ULL) = 5
// field_set(0x0000800000000000ULL) = 6
// field_set(0x0080000000000000ULL) = 7
// field_set(0x8000000000000000ULL) = 8

clang реализует это в трех инструкциях x86_64, не считая установки и очистки фрейма:

_field_set:
    push   %rbp
    mov    %rsp,%rbp
    movabs $0x20406080a0c0e1,%rax
    imul   %rdi,%rax
    shr    $0x3c,%rax
    pop    %rbp
    retq

Обратите внимание, что результаты для любого другого ввода будут в значительной степени случайными. (Так что не делайте этого.)

Я не думаю, что существует какой-либо возможный способ расширить этот метод, чтобы возвращать значения в диапазоне 7..63 напрямую (структура константы не позволяет), но вы можете преобразовать результаты в этот диапазон умножая результат на 7.

В отношении того, как была создана эта константа: я начал со следующих наблюдений:

Беззнаковое умножение является быстрой операцией на большинстве процессоров и может иметь полезные эффекты. Мы должны использовать его.:)
Умножение чего угодно на ноль приводит к нулю. Поскольку это соответствует желаемому результату для ввода без бит-бит, мы преуспеваем до сих пор.
Умножение чего-либо на 1ULL<<63 (т.е. ваше значение "pos = 63" ) может привести только к тому же значению или нулю. (У него не могут быть установлены более низкие биты, и нет более высоких битов для изменения.) Поэтому мы должны найти способ, чтобы это значение считалось правильным результатом.
Удобным способом сделать это значение будет его собственный правильный результат, переведя его на 60 бит. Это сдвигает его до "8", что является достаточно удобным представлением. Мы можем перейти к кодированию других выходов с 1 по 7.
Умножение нашей константы на каждое из других битовых полей эквивалентно смещению влево на несколько бит, равное его "позиции". Смещение вправо на 60 бит приводит к появлению только 4 бит слева от данной позиции. Таким образом, мы можем создать все случаи, за исключением одного следующего:
```
 uint64_t constant = (
      1ULL << (60 - 7)
    | 2ULL << (60 - 15)
    | 3ULL << (60 - 23)
    | 4ULL << (60 - 31)
    | 5ULL << (60 - 39)
    | 6ULL << (60 - 47)
    | 7ULL << (60 - 55)
 );
```

Пока константа 0x20406080a0c0e0ULL. Однако это не дает правильного результата для pos=63; эта константа четная, поэтому ее умножение на этот вход дает нуль. Мы должны установить младший бит (i.e, constant |= 1ULL), чтобы этот случай работал, давая нам окончательное значение 0x20406080a0c0e1ULL.

Обратите внимание, что приведенная выше конструкция может быть изменена для кодирования результатов по-разному. Однако вывод 8 фиксируется, как описано выше, и все остальные выходные данные должны вписываться в 4 бита (то есть от 0 до 15).

Ответ 2

Вот портативное решение, которое, однако, будет медленнее, чем решения, использующие специализированные инструкции, такие как clz (подсчет ведущих нулей). Я добавил комментарии на каждом шаге алгоритма, объясняющего, как это работает.

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>

/* return position of set bit, if exactly one of bits n*8-1 is set; n in [1,8]
   return 0 if no bit is set
*/
int bit_pos (uint64_t a)
{
    uint64_t t, c;
    t = a - 1; // create mask
    c = t >> 63; // correction for zero inputs
    t = t + c; // apply zero correction if necessary
    t = t & 0x0101010101010101ULL; // mark each byte covered by mask
    t = t * 0x0101010101010101ULL; // sum the byte markers in uppermost byte
    t = (t >> 53) - 1; // retrieve count and diminish by 1 for bit position
    t = t + c; // apply zero correction if necessary
    return (int)t;
}

int main (void)
{
    int i;
    uint64_t a;
    a = 0;
    printf ("a=%016llx   bit_pos=%2d   reference_pos=%2d\n", a, bit_pos(a), 0);
    for (i = 7; i < 64; i += 8) {
        a = (1ULL << i);
        printf ("a=%016llx   bit_pos=%2d   reference_pos=%2d\n", 
                a, bit_pos(a), i);
    }
    return EXIT_SUCCESS;
}

Результат этого кода должен выглядеть следующим образом:

a=0000000000000000   bit_pos= 0   reference_pos= 0
a=0000000000000080   bit_pos= 7   reference_pos= 7
a=0000000000008000   bit_pos=15   reference_pos=15
a=0000000000800000   bit_pos=23   reference_pos=23
a=0000000080000000   bit_pos=31   reference_pos=31
a=0000008000000000   bit_pos=39   reference_pos=39
a=0000800000000000   bit_pos=47   reference_pos=47
a=0080000000000000   bit_pos=55   reference_pos=55
a=8000000000000000   bit_pos=63   reference_pos=63

На платформе x86_64 мой компилятор переводит bit_pos() в этот машинный код:

bit_pos PROC 
        lea       r8, QWORD PTR [-1+rcx]
        shr       r8, 63
        mov       r9, 0101010101010101H
        lea       rdx, QWORD PTR [-1+r8+rcx]
        and       rdx, r9
        imul      r9, rdx
        shr       r9, 53
        lea       rax, QWORD PTR [-1+r8+r9]
        ret

[Позднее обновление]

Ответ by duskwuff дал мне понять, что мое первоначальное мышление излишне запутанно. Фактически, используя подход duskwuff, желаемая функциональность может быть выражена гораздо более сжато следующим образом:

/* return position of set bit, if exactly one of bits n*8-1 is set; n in [1,8]
   return 0 if no bit is set
*/
int bit_pos (uint64_t a)
{
    const uint64_t magic_multiplier = 
         (( 7ULL << 56) | (15ULL << 48) | (23ULL << 40) | (31ULL << 32) |
          (39ULL << 24) | (47ULL << 16) | (55ULL <<  8) | (63ULL <<  0));
    return (int)(((a >> 7) * magic_multiplier) >> 56);
}

Любой разумный компилятор будет прекомпилировать магический множитель, который равен 0x070f171f272f373fULL. Код, испущенный для цели x86_64, сокращается до

bit_pos PROC 
        mov       rax, 070f171f272f373fH
        shr       rcx, 7
        imul      rax, rcx
        shr       rax, 56
        ret

Ответ 3

Если вы можете использовать POSIX, используйте функцию ffs() от strings.h (не string.h!). Он возвращает позицию наименее значимого битового набора (один индексированный) или ноль, если аргумент равен нулю. В большинстве реализаций вызов ffs() встроен и скомпилирован в соответствующую машинную команду, например bsf на x86. В glibc также есть ffsll() для аргументов long long, которые должны быть еще более подходящими для вашей проблемы, если они доступны.

Ответ 4

Значение mod 0x8C дает уникальное значение для каждого из случаев.

Это значение mod 0x11 по-прежнему уникально.

Второе значение в таблице - результат mod 0x11.

128 9
32768   5
8388608 10
2147483648  0
549755813888    14
140737488355328 2
36028797018963968   4
9223372036854775808     15

Таким образом, будет достаточно простой таблицы поиска.

int find_bit(uint64_t bit){ 
  int lookup[] = { the seventeen values };
  return lookup[ (bit % 0x8C) % 0x11];
}

Нет ветвлений, никаких трюков компилятора.

Для полноты массив

{ 31, 0, 47, 15, 55, 0, 0, 7, 23, 0, 0, 0, 39, 63, 0, 0}

Ответ 5

Если вам нужен алгоритм работы, а не встроенный, это сделает это. Он дает бит число наиболее значимых 1 бит, даже если установлено более одного бита. Он сужает положение, итеративно разделяя рассматриваемый диапазон бит на половину, проверяя, есть ли какие-либо биты, установленные в верхней половине, занимая половину, как новый бит, если это так, и в противном случае принимают нижнюю половину в качестве нового битового диапазона.

#define TRY_WINDOW(bits, n, msb) do { \
    uint64_t t = n >> bits;           \
    if (t) {                          \
        msb += bits;                  \
        n = t;                        \
    }                                 \
} while (0)

int msb(uint64_t n) {
    int msb = 0;

    TRY_WINDOW(32, n, msb);
    TRY_WINDOW(16, n, msb);
    TRY_WINDOW( 8, n, msb);
    TRY_WINDOW( 4, n, msb);
    TRY_WINDOW( 2, n, msb);
    TRY_WINDOW( 1, n, msb);

    return msb;
}

Ответ 6

Тег С++ был удален, но, тем не менее, это переносимый С++-ответ, поскольку вы можете скомпилировать его с С++ и использовать интерфейс extern C:

Если у вас есть сила 2, и вы вычитаете ее, вы получите двоичное число с количеством установленных битов, равным позиции

Способ подсчета количества заданных битов (двоичный 1 s) обернут, предположительно наиболее эффективно, каждой реализацией stl в std::bitset функции-члене count

Обратите внимание, что ваша спецификация имеет 0, возвращенный как для 0, так и 1, поэтому я добавил as_specified_pos для удовлетворения этого требования. Лично я просто оставил бы это, возвращая естественное значение 64, когда прошло 0, чтобы иметь возможность различать и для скорости.

Следующий код должен быть чрезвычайно переносимым и, скорее всего, оптимизирован для каждой платформы поставщиками компиляторов:

#include <bitset>

uint64_t pos(uint64_t val)
{
   return std::bitset<64>(val-1).count();
}

uint64_t as_specified_pos(uint64_t val)
{
    return (val) ? pos(val) : 0;
}

В Linux с g++ я получаю следующий дизассемблированный код:

0000000000000000 <pos(unsigned long)>:
   0:   48 8d 47 ff             lea    -0x1(%rdi),%rax
   4:   f3 48 0f b8 c0          popcnt %rax,%rax
   9:   c3                      retq
   a:   66 0f 1f 44 00 00       nopw   0x0(%rax,%rax,1)

0000000000000010 <as_specified_pos(unsigned long)>:
  10:   31 c0                   xor    %eax,%eax
  12:   48 85 ff                test   %rdi,%rdi
  15:   74 09                   je     20 <as_specified_pos(unsigned long)+0x10>
  17:   48 8d 47 ff             lea    -0x1(%rdi),%rax
  1b:   f3 48 0f b8 c0          popcnt %rax,%rax
  20:   f3 c3                   repz retq

Ответ 7

Современное оборудование имеет специальные инструкции для этого (LZCNT, TZCNT на процессорах Intel).

Большинство компиляторов имеют встроенные функции, которые легко сгенерируют их. См. Страницу wikipedia.

Ответ 8

00000000 00000000 00000000 00000000 00000000 00000000 00000000 10000000  pos = 7
..., но возвращает 0, если бит не установлен.

Это вернет то же самое, если первый бит или бит не установлен; однако на x86_64 это именно то, что делает bsrq:

int bsrq_x86_64(uint64_t x){
  int ret;
  asm("bsrq %0, %1":"=r"(ret):"r"(x));
  return ret;
}

Тем не менее; если первый бит установлен, он также вернет 0; это метод, который будет выполняться в постоянное время (без циклов или ветвлений) и возвращает -1, если не установлены биты (чтобы отличить от того, когда установлен первый бит).

int find_bit(unsigned long long x){
  int ret=0,
  cmp = (x>(1LL<<31))<<5; //32 if true else 0
  ret += cmp;
  x  >>= cmp;
  cmp = (x>(1<<15))<<4; //16 if true else 0
  ret += cmp;
  x  >>= cmp;
  cmp = (x>(1<<7))<<3; //8
  ret += cmp;
  x  >>= cmp;
  cmp = (x>(1<<3))<<2; //4
  ret += cmp;
  x  >>= cmp;
  cmp = (x>(1<<1))<<1; //2
  ret += cmp;
  x  >>= cmp;
  cmp = (x>1);
  ret += cmp;
  x  >>= cmp;
  ret += x;
  return ret-1;
}

Технически это просто возвращает позицию самого значимого бита. В зависимости от типа используемого поплавка это можно сделать за меньшее количество операций с использованием быстрого обратного квадрата или другого бит-скручивание hacks

BTW, Если вы не против использования встроенных компиляторов, вы можете просто сделать:

__builtin_popcountll(n-1) или __builtin_ctzll(n) или __builtin_ffsll(n)-1

Ответ 9

Простое решение для поиска. m=67 - наименьшее целое число, для которого значения (1<<k)%m различны, for k<m. С (транспонируемый код python):

lut = [-1]*67
for i in range(0,64) : lut[(1<<i)%67] = i

Тогда lut[a%67] дает k, если a = 1<<k. Значения -1 не используются.