入口函数使用太多共享数据(0x8020 字节 + 0x10 字节系统,最大 0x4000) - CUDA 错误
我使用的是 Tesla C2050,它的计算能力为 2.0,共享内存为 48KB。但是,当我尝试使用此共享内存时,nvcc 编译器给出以下错误 Entry function '_Z4SAT3…
如何正确将从全局内存读取的内容合并到具有 Short 或 char 类型元素的共享内存中(假设每个元素有一个线程)?
我对 CUDA 中合并全局内存负载有疑问。目前我需要能够在具有计算能力 CUDA 1.1 或 1.3 的 CUDA 设备上执行。 我正在编写一个 CUDA 内核函数,它将一个…
Cuda-memcheck 未报告越界共享内存访问
我正在使用共享内存运行以下代码: __global__ void computeAddShared(int *in , int *out, int sizeInput){ //not made parameters gidata and godat…
cuda nbody模拟-共享内存问题
基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…
为什么将共享内存数组填充一列可以使内核速度提高 40%?
当共享内存数组填充一列时,为什么这个矩阵转置内核更快? 我在 PyCuda/Examples/MatrixTranspose 找到了内核。 源 import pycuda.gpuarray as gpuarr…
寄存器和共享内存取决于编译计算能力?
当我使用 nvcc -arch=sm_13 编译时,我得到: ptxas info : Used 29 registers, 28+16 bytes smem, 7200 bytes cmem[0], 8 bytes cmem[1] 当我使用 nv…
共享内存上的原子操作
如何在共享内存上执行原子操作? 我有类似的东西: __shared__ int a[10]; //set a if(tid<5) a[2]++; 因此 5 个线程正在递增 a。我该怎么做? 我知道…