Какова связь между ядром CUDA, потоковым мультипроцессором и моделью CUDA блоков и потоков?
Что сопоставляется с тем, что и что распараллеливается и как? и что более эффективно, максимизируйте количество блоков или количество потоков?
Мое настоящее понимание заключается в том, что на один процессор приходится 8 ядер cuda. и что каждое ядро cuda сможет выполнить один блок cuda за раз. и все потоки в этом блоке выполняются последовательно в этом конкретном ядре.
Правильно ли это?