对 2D 数组使用纹理缓存/Image2D 的缺点?
当访问全局内存中的 2D 数组时,使用纹理缓存有很多好处,例如过滤并且不必太关心内存访问模式。 CUDA 编程指南仅指出了一个缺点: 但是,在同一…
编译cuda代码时遇到问题
我想编译这个体积渲染项目。我在 Ubuntu 10.10 计算机上安装了 CUDA 工具包和 SDK,并且能够运行其示例,但我得到了这个: antonio@antonio-desktop:~…
可以用整数索引 CUDA 纹理吗
正如题目所说。可以使用整数坐标访问 CUDA 纹理吗? 前任。 tex2D(myTex, 1, 1); 我想在纹理中存储浮点值,并将其用作我的帧缓冲区。 我会将其传递给 …
Visual Studio 2010 CUDA 4.0 链接器错误
有谁知道一种简单的方法来修复以下错误: 1>matrixmul.cu.obj : error LNK2019: unresolved external symbol __imp_cutComparefe referenced in funct…
CUDA 内核函数比同等主机函数花费更长的时间
我正在关注 http://code.google.com/p/stanford- cs193g-sp2010/ 和在线发布的视频讲座,在做其中一个发布的问题集(第一个)时,我遇到了一些稍微违…
指针到指针的语法问题
可以说我有以下内容: void init_gpu(cuComplex* d_hhBuff) { cutilSafeCall(cudaMalloc((void **)&d_hhBuff, memsize)); } 我用类似的方式调用它 cuC…
为什么在 CUDA 中用位运算替换 if-else 会变慢?
我 if((nMark >> tempOffset) & 1){nDuplicate++;} else{nMark = (nMark | (1 << tempOffset));} 用 nDuplicate += ((nMark >> tempOffset) & 1); nMa…
关于CUDA中从block到SM的分配细节的问题
我以计算能力1.3的硬件为例。 30 个 SM 可用。那么最多可以同时运行240个块(考虑到寄存器和共享内存的限制,对块数量的限制可能要低得多)。超过 240…
CUDA 内核代码的设备内存:是否可以显式管理?
语境: CUDA 4.0、Linux 64 位、NVIDIA UNIX x86_64 内核模块 270.41.19、GeForce GTX 480。 我尝试在程序中查找(设备)内存泄漏。我使用运行时 API …
用于多个 GPU 的 cudaDeviceReset
我目前正在开发一个具有 4 个 Tesla T10 GPU 的 GPU 服务器。当我不断测试内核并且必须经常使用 ctrl-C 终止进程时,我在简单的设备查询代码的末尾添…
如何确定CUDA的哪些行使用最多的寄存器?
我有一个有点复杂的内核,具有以下统计数据: ptxas info : Compiling entry function 'my_kernel' for 'sm_21' ptxas info : Function properties fo…