CUDA 调试 - Windows 工作站上的 VS,Linux 服务器上的 GPU?
有没有人有过在工作站上编码时在服务器上调试 CUDA 代码的经验? 我的笔记本电脑 (Thinkpad T400) 不支持 CUDA,但我可以访问带有一对运行 Linux 的 N…
CUDA - 对矩阵单个元素的操作 - 获得想法
我正在编写一个 CUDA 内核来对矩阵的每个元素执行单个操作(例如,对每个元素求平方,或求幂,或者如果所有数字都在 [-11] 之间,则计算正弦/余弦,等…
CUDA - 将错误与卷积示例联系起来
我正在尝试编译 Joe Stam 的以下代码(卷积方法,使用 vs2005 的项目,我使用 VS2010 但使用 9.0 引擎编译) 1>ConvolutionCudaFunctions.obj:错误…
GTS 250 和 Fermi 器件之间的 CUDA 块同步差异
所以我一直在研究一个在全局内存中创建哈希表的程序。该代码在 GTS250(Compute 1.1 设备)上完全可用(尽管速度较慢)。但是,在 Compute 2.0 设备(…
CUDA cufftPlan2d 计划尺寸问题
我正在研究Nvidia CUDA sdk的卷积FFT2D示例背后的代码,但我不明白这一行的要点: cufftPlan2d(&fftPlan, fftH, fftW/2, CUFFT_C2C) 显然,这初始…
如果行程计数不恒定,为什么 #pragma-unrolled 循环的性能会下降?
我有以下使用循环展开的代码: #pragma unroll for (int i=0i<ni++) { .... } 这里如果 n 是定义的常量,则一切正常。然而,如果 n 是一个变量,性…