如何获取要执行的 PTX 文件
我知道如何从 .cu 生成 .ptx 文件以及如何从 .ptx 生成 .cubin 文件。 但我不知道如何获得最终的可执行文件。 更具体地说,我有一个 sample.cu 文件,…
CUDA:嵌入式for循环内核
我有一些代码想要制作成 cuda 内核。看吧: for (r = Y r < Y + H r+=2) { ch1RowSum = ch2RowSum = ch3RowSum = 0 for (c = X c < X + W c+=2) {…
从模板类中调用模板函数
GCC 不会编译以下代码片段(这实际上是 GCC 的正确行为,因为它符合我已经学过的标准 C++。但是 VC++ 会编译。) template<class T> void CUDAMem…
弄清楚 cuda 内核有多少个块和线程,以及如何使用它们
我一直在试图弄清楚如何制作一个我认为简单的内核来取二维矩阵中值的平均值,但我在直接思考过程中遇到了一些问题。 根据我的 deviceQuery 输出,我的…
Cuda 2D内存分配和复制问题
int **F int **dev_pF size_t *pitchF void init_cuda_mem(int mF,int mT,int nF,int nT){ cudaMallocPitch((void **)dev_pF,pitchF,(nF + 2*nT -2)*…
Qt 的 CUDA 包装器
Qt 为 Opencl 发布了一个很好的包装器( QtOpencl ),它在隐藏大量样板并使 OpenCL 能够与 Qt 的显示小部件和 Opengl 很好地配合。 但有一些事情我可…
一次 I/O 执行速度比一次读取一点要慢
我正在致力于优化和算法,我们正准备使用 cuda 将其放在 GPU 上。 I/O 部分从 3 个不同的图像中读取,一次读取一行。这正好位于在图像上运行过滤器的…
我可以将特定数据预取到 CUDA 内核中的特定缓存级别吗?
据我所知,Fermi GPU 支持预取 L1 或 L2 缓存。然而,在CUDA参考手册中我找不到任何相关内容。 CUDA 允许我的内核代码将特定数据预取到特定级别的缓存…
使用 CUDA 构建自动并行计算库
对于我最后一年的项目,我选择构建一个库,开发人员可以使用 CUDA 进行 GPGPU 计算,而无需了解 CUDA API 的不同内核实现背后的机制(换句话说,是 CU…
通过CUDA线程复制全局内存
我需要通过 CUDA 线程(而不是从主机)将全局内存中的一个数组复制到全局内存中的另一个数组。 我的代码如下: __global__ void copy_kernel(int *g_d…
使用 nvcc 时 arch 和 code 选项的默认值是什么?
编译 CUDA 代码时,您必须选择为哪种架构生成代码。 nvcc 提供了两个参数来指定该架构,基本上: arch 指定虚拟架构,可以是 compute_10、compute_11 …
NVIDIA 与 AMD:GPGPU 性能
我想听听具有这两种编码经验的人的意见。就我个人而言,我只拥有 NVIDIA 的经验。 NVIDIA CUDA 似乎比竞争对手更受欢迎。 (仅计算该论坛上的问题标签…