Вот мой код:
int threadNum = BLOCKDIM/8;
dim3 dimBlock(threadNum,threadNum);
int blocks1 = nWidth/threadNum + (nWidth%threadNum == 0 ? 0 : 1);
int blocks2 = nHeight/threadNum + (nHeight%threadNum == 0 ? 0 : 1);
dim3 dimGrid;
dimGrid.x = blocks1;
dimGrid.y = blocks2;
// dim3 numThreads2(BLOCKDIM);
// dim3 numBlocks2(numPixels/BLOCKDIM + (numPixels%BLOCKDIM == 0 ? 0 : 1) );
perform_scaling<<<dimGrid,dimBlock>>>(imageDevice,imageDevice_new,min,max,nWidth, nHeight);
cudaError_t err = cudaGetLastError();
cudasafe(err,"Kernel2");
Это исполнение моего второго ядра, и оно полностью независимо в отношении использования данных. BLOCKDIM
равно 512, nWidth and nHeight
тоже 512, а cudasafe
просто печатает соответствующее строковое сообщение кода ошибки. Этот раздел кода дает ошибку конфигурации сразу после вызова ядра.
Что может дать эта ошибка, любая идея?