Почему позиция функции в файле С++ влияет на ее производительность? В частности, в приведенном ниже примере мы имеем две идентичные функции, которые имеют разные, согласованные профили производительности. Как можно разобраться с этим и определить, почему производительность настолько отличается?
Пример довольно прост в том, что у нас есть две функции: a и b. Каждый из них выполняется много раз в узкой петле и оптимизирован (-O3 -march=corei7-avx
) и синхронизирован. Вот код:
#include <cstdint>
#include <iostream>
#include <numeric>
#include <boost/timer/timer.hpp>
bool array[] = {true, false, true, false, false, true};
uint32_t __attribute__((noinline)) a() {
asm("");
return std::accumulate(std::begin(array), std::end(array), 0);
}
uint32_t __attribute__((noinline)) b() {
asm("");
return std::accumulate(std::begin(array), std::end(array), 0);
}
const size_t WARM_ITERS = 1ull << 10;
const size_t MAX_ITERS = 1ull << 30;
void test(const char* name, uint32_t (*fn)())
{
std::cout << name << ": ";
for (size_t i = 0; i < WARM_ITERS; i++) {
fn();
asm("");
}
boost::timer::auto_cpu_timer t;
for (size_t i = 0; i < MAX_ITERS; i++) {
fn();
asm("");
}
}
int main(int argc, char **argv)
{
test("a", a);
test("b", b);
return 0;
}
Некоторые примечательные функции:
- Функция a и b идентичны. Они выполняют ту же операцию накопления и сводятся к тем же инструкциям сборки.
- Каждая тестовая итерация имеет период разогрева до начала отсчета времени и пытается устранить любые проблемы с разогревом кешей.
Когда это скомпилировано и выполняется, мы получаем следующий результат, показывающий, что a значительно медленнее, чем b:
[[email protected]:~/code/mystery] make && ./mystery
g++-4.8 -c -g -O3 -Wall -Wno-unused-local-typedefs -std=c++11 -march=corei7-avx -I/usr/local/include/boost-1_54/ mystery.cpp -o mystery.o
g++-4.8 mystery.o -lboost_system-gcc48-1_54 -lboost_timer-gcc48-1_54 -o mystery
a: 7.412747s wall, 7.400000s user + 0.000000s system = 7.400000s CPU (99.8%)
b: 5.729706s wall, 5.740000s user + 0.000000s system = 5.740000s CPU (100.2%)
Если мы инвертируем два теста (т.е. вызов test(b)
, а затем test(a)
) a все еще медленнее, чем b:
[[email protected]:~/code/mystery] make && ./mystery
g++-4.8 -c -g -O3 -Wall -Wno-unused-local-typedefs -std=c++11 -march=corei7-avx -I/usr/local/include/boost-1_54/ mystery.cpp -o mystery.o
g++-4.8 mystery.o -lboost_system-gcc48-1_54 -lboost_timer-gcc48-1_54 -o mystery
b: 5.733968s wall, 5.730000s user + 0.000000s system = 5.730000s CPU (99.9%)
a: 7.414538s wall, 7.410000s user + 0.000000s system = 7.410000s CPU (99.9%)
Если мы теперь инвертируем расположение функций в файле С++ (переместите определение b выше a), результаты будут инвертированы, а a станет быстрее, чем b!
[[email protected]:~/code/mystery] make && ./mystery
g++-4.8 -c -g -O3 -Wall -Wno-unused-local-typedefs -std=c++11 -march=corei7-avx -I/usr/local/include/boost-1_54/ mystery.cpp -o mystery.o
g++-4.8 mystery.o -lboost_system-gcc48-1_54 -lboost_timer-gcc48-1_54 -o mystery
a: 5.729604s wall, 5.720000s user + 0.000000s system = 5.720000s CPU (99.8%)
b: 7.411549s wall, 7.420000s user + 0.000000s system = 7.420000s CPU (100.1%)
Итак, по существу какая-либо функция находится в верхней части файла С++ медленнее.
Некоторые ответы на интересующие вас вопросы:
- Скомпилированный код идентичен для a и b. Проверка была проверена. (Для заинтересованных: http://pastebin.com/2QziqRXR)
- Код был скомпилирован с использованием gcc 4.8, gcc 4.8.1 на ubuntu 13.04, ubuntu 13.10 и ubuntu 12.04.03.
- Эффекты, наблюдаемые на процессоре Intel Sandy Bridge i7-2600 и Intel Xeon X5482.
Зачем это происходит? Какие инструменты доступны для исследования чего-то подобного?