Теперь v [0] содержит сумму компонент v1, а v [1] содержит сумму компонент v2.
Ответ 2
Если вы хотите, чтобы ваш код работал на процессорах до SSE3 (которые не поддерживают _mm_hadd_ps), вы можете использовать следующий код. Он использует больше инструкций, но декодирует до меньшего количества микросхем на большинстве процессоров.