Каков рекомендуемый способ работы с наборами данных с динамическим размером в cuda?
Является ли это случаем "задавать размеры блока и сетки на основе набора проблем" или стоит ли назначать размеры блоков как коэффициенты 2 и иметь некоторую встроенную логику для устранения избыточного разлива?
Я вижу, как это, вероятно, имеет большое значение для размеров блока, но насколько это важно для размеров сетки? Как я понимаю, фактические аппаратные ограничения останавливаются на уровне блоков (т.е. блоки, назначенные SM, которые имеют определенное количество SP, и поэтому могут обрабатывать определенный размер деформации).
Я пересматривал Kirk "Программирование многопараллельных процессоров", но на самом деле это не касается.