如何评估 CUDA GPU 的相对性能?
我怎样才能估计我不拥有的卡的cuda性能,即。新卡? 例如,我发现了一个不完整的 Cuda 示例,作者写道,他在 GF 8600 GT 上花费了 0.7 秒。但在我的 Q…
GPU 的哈希表实现
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
.Net 中的 GPGPU 编程 - Microsoft Accelerator VS OpenCL.net [VS 其他]
我正在开发一个程序(在.Net中),它有很多图像处理(如2D卷积,...),我想用GPGPU(并行处理)来完成它们 所以,我有一些选择:Microsoft Accelerat…
cuda nbody模拟-共享内存问题
基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…
OpenCL 与 OpenMP 性能对比
Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…
CUDA 内核函数比同等主机函数花费更长的时间
我正在关注 http://code.google.com/p/stanford- cs193g-sp2010/ 和在线发布的视频讲座,在做其中一个发布的问题集(第一个)时,我遇到了一些稍微违…
关于CUDA中从block到SM的分配细节的问题
我以计算能力1.3的硬件为例。 30 个 SM 可用。那么最多可以同时运行240个块(考虑到寄存器和共享内存的限制,对块数量的限制可能要低得多)。超过 240…
是否有方法能够阻止某些块直到满足某些条件?
我想阻止一些块,直到一个变量被设置为特定值。所以我编写这段代码来测试一个简单的 do-while 循环是否有效。 __device__ int tag = 0; __global__ vo…
cpu 与 gpu - 当 cpu 更好时
我知道很多 GPU 比 CPU 快得多的例子。但存在很难并行化的算法(问题)。你能给我一些CPU可以战胜GPU的例子或测试吗? 编辑: 感谢您的建议!我们可以…
OpenCL - 如何查询设备的 SIMD 宽度?
在CUDA中,有一个warp的概念,它被定义为在单个处理元素内可以同时执行相同指令的最大线程数。对于 NVIDIA 来说,当前市场上所有卡的扭曲大小都是 32…
CUDA 凸包程序在大输入时崩溃
我正在尝试在 CUDA 中并行实现 QuickHull 算法(对于凸包)。当 input_size <= 100 万时它可以正常工作。当我尝试 1000 万点时,程序崩溃了。我的显卡…
错误:asm 操作数类型大小 (1) 与约束“r”隐含的类型/大小不匹配。关于 Duane Merrill 的 GPU 基数排序
当我尝试在win-XP + VS2005下编译Merrill的基数排序时出现错误。 错误:asm 操作数类型大小(1) 与约束“r”隐含的类型/大小不匹配。 它出现在以下代码…