Я немного знаком с визуальным профилировщиком CUDA и таблицей занятости, хотя я, вероятно, не использую их так хорошо, как мог. Профилирование и оптимизация кода CUDA не похоже на профилирование и оптимизацию кода, который выполняется на процессоре. Поэтому я надеюсь извлечь уроки из вашего опыта о том, как извлечь максимальную пользу из моего кода.
Недавно был найден быстрый код для определения номеров самообслуживания, и я предоставил CUDA. Я не удовлетворен тем, что этот код работает так быстро, как может быть, но я в недоумении, чтобы выяснить, как правильно и на каком инструменте я могу получить ответы.
Как вы определяете способы ускорения работы ваших ядер CUDA?