У меня возникли проблемы с пониманием потоков в архитектуре NVIDIA gpu с cuda.
Пожалуйста, кто-нибудь может прояснить эту информацию: 8800 gpu имеет 16 SM с 8 SP каждый. поэтому у нас есть 128 SP.
Я просматривал презентацию в формате stanford, и он говорил, что каждый SP способен выполнять 96 потоков одновременно. означает ли это, что он (SP) может запускать 96/32 = 3 перекоса одновременно?
Кроме того, поскольку каждый SP может запускать 96 потоков, и у нас есть 8 SP в каждом SM. означает ли это, что каждый SM может запускать 96 * 8 = 768 потоков одновременно? но если каждый SM может запускать один блок за раз, а максимальное количество потоков в блоке равно 512, то какова цель одновременного запуска потоков 768 и имеет максимум 512 потоков?
более общий вопрос: как блоки, потоки и перекосы распределяются по SM и SP? я читаю, что каждый SM получает один блок для выполнения за один раз, а потоки в блоке делятся на warps (32 потока), а SPs выполняют warps.