Кто-нибудь знает, почему GCC/Clang не будет оптимизировать функцию test1 в приведенном ниже примере кода, чтобы просто использовать только инструкцию RCPPS при использовании опции fast-math? Есть ли другой флаг компилятора, который будет генерировать этот код?
typedef float float4 __attribute__((vector_size(16)));
float4 test1(float4 v)
{
return 1.0f / v;
}
Вы можете увидеть скомпилированный вывод здесь: https://goo.gl/jXsqat