CUDA 内核代码的设备内存:是否可以显式管理?
语境: CUDA 4.0、Linux 64 位、NVIDIA UNIX x86_64 内核模块 270.41.19、GeForce GTX 480。 我尝试在程序中查找(设备)内存泄漏。我使用运行时 API …
用于多个 GPU 的 cudaDeviceReset
我目前正在开发一个具有 4 个 Tesla T10 GPU 的 GPU 服务器。当我不断测试内核并且必须经常使用 ctrl-C 终止进程时,我在简单的设备查询代码的末尾添…
如何确定CUDA的哪些行使用最多的寄存器?
我有一个有点复杂的内核,具有以下统计数据: ptxas info : Compiling entry function 'my_kernel' for 'sm_21' ptxas info : Function properties fo…
是否有方法能够阻止某些块直到满足某些条件?
我想阻止一些块,直到一个变量被设置为特定值。所以我编写这段代码来测试一个简单的 do-while 循环是否有效。 __device__ int tag = 0; __global__ vo…
Cuda 4.0 与 Visual Studio 2010 cl 编译器错误
因为我在 Nvidia 论坛 中没有得到任何帮助(请参阅我的帖子位于线程底部),看来我并不是唯一一个在类似问题上挣扎的人遇到问题,我就在这里尝试一下…
为什么“a=(b>0)?1:0”比“if-else”更好CUDA版本?
你能告诉我为什么 a =(b>0)?1:0 更好吗 if (b>0)a=1; else a =0; 比CUDA 中的版本 ?请提供详细信息。非常感谢。 易…
CUDA 凸包程序在大输入时崩溃
我正在尝试在 CUDA 中并行实现 QuickHull 算法(对于凸包)。当 input_size <= 100 万时它可以正常工作。当我尝试 1000 万点时,程序崩溃了。我的显卡…
双调排序网络与 Thrust::sort_by_key
我实现了一种使用排序的算法。我尝试了 Thrust::sort_by_key ,它花费了大约 0.4 秒的时间对包含 10^7 个元素的数组进行排序。 我认为双调排序网络应…
错误:asm 操作数类型大小 (1) 与约束“r”隐含的类型/大小不匹配。关于 Duane Merrill 的 GPU 基数排序
当我尝试在win-XP + VS2005下编译Merrill的基数排序时出现错误。 错误:asm 操作数类型大小(1) 与约束“r”隐含的类型/大小不匹配。 它出现在以下代码…
多重定义的标准分配器
我正在尝试使用 VC++2008 编译 C++ DLL。我已经使用 VC++2010 正确编译了它,但使用 VC++2008 时,出现以下错误: 1>msvcprt.lib(MSVCP90.dll) : erro…
Matlab是否会因CUcontext缓存而导致Cuda内存泄漏?
计算后使用 cudaDeviceReset() 是从 Matlab 使用 GPU 的正常方法吗?我无法在最新版本的 Matlab 中使用 GPU 计算,因为我的 GPU 不支持 Compute Capab…
CUDA程序抛出内存泄漏错误
我不明白为什么下面的简单代码在 c[0] = d 处失败 void test(char **a){ char **c; cudaMemcpy(c,a, sizeof(char*), cudaMemcpyDeviceToHost); char t…
CUDA程序赋予垃圾价值
我真的不明白为什么下面代码的输出不是a和b。 #include #include __global__ void p(unsigned char **a){ unsigned char temp[2]; temp[0] = 'a'; tem…