Может кто-нибудь, пожалуйста, помогите мне с очень простым примером использования общей памяти? Пример, включенный в руководство по программированию Cuda C, кажется загроможденным нерелевантными деталями.
Например, если я скопирую большой массив в глобальную память устройства и хочу соединить каждый элемент, как можно использовать общую память для ускорения этого? Или это не полезно в этом случае?