SSE: преобразование короткого целого числа в float

Я хочу преобразовать массив беззнаковых коротких чисел в float, используя SSE. Пусть говорят

__m128i xVal;     // Has 8 16-bit unsigned integers
__m128 y1, y2;    // 2 xmm registers for 8 float values

Я хочу сначала 4 uint16 в y1 и следующий 4 uint16 в y2. Необходимо знать, какой sse встроен для использования.

Ответ 1

Вам нужно сначала распаковать свой вектор 8 x 16 бит без знака в два вектора 32-битных беззнаковых ints, а затем преобразовать каждый из этих векторов в float:

__m128i xlo = _mm_unpacklo_epi16(x, _mm_set1_epi16(0));
__m128i xhi = _mm_unpackhi_epi16(x, _mm_set1_epi16(0));
__m128 ylo = _mm_cvtepi32_ps(xlo);
__m128 yhi = _mm_cvtepi32_ps(xhi);

Ответ 2

Я бы предложил использовать немного другую версию:

static const __m128i magicInt = _mm_set1_epi16(0x4B00);
static const __m128 magicFloat = _mm_set1_ps(8388608.0f);

__m128i xlo = _mm_unpacklo_epi16(x, magicInt);
__m128i xhi = _mm_unpackhi_epi16(x, magicInt);
__m128 ylo = _mm_sub_ps(_mm_castsi128_ps(xlo), magicFloat);
__m128 yhi = _mm_sub_ps(_mm_castsi128_ps(xhi), magicFloat);

На уровне сборки единственным отличием от версии Paul R является использование _mm_sub_ps (инструкция SUBPS) вместо _mm_cvtepi32_ps (инструкция CVTDQ2PS). _mm_sub_ps никогда не медленнее, чем _mm_cvtepi32_ps, и на самом деле быстрее работает на старых процессорах и на маломощных процессорах (читай: Intel Atom и AMD Bobcat)