.Net 中的 GPGPU 编程 - Microsoft Accelerator VS OpenCL.net [VS 其他]
我正在开发一个程序(在.Net中),它有很多图像处理(如2D卷积,...),我想用GPGPU(并行处理)来完成它们 所以,我有一些选择:Microsoft Accelerat…
cuda nbody模拟-共享内存问题
基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…
OpenCL 与 OpenMP 性能对比
Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…
CUDA 内核函数比同等主机函数花费更长的时间
我正在关注 http://code.google.com/p/stanford- cs193g-sp2010/ 和在线发布的视频讲座,在做其中一个发布的问题集(第一个)时,我遇到了一些稍微违…
关于CUDA中从block到SM的分配细节的问题
我以计算能力1.3的硬件为例。 30 个 SM 可用。那么最多可以同时运行240个块(考虑到寄存器和共享内存的限制,对块数量的限制可能要低得多)。超过 240…
是否有方法能够阻止某些块直到满足某些条件?
我想阻止一些块,直到一个变量被设置为特定值。所以我编写这段代码来测试一个简单的 do-while 循环是否有效。 __device__ int tag = 0; __global__ vo…
cpu 与 gpu - 当 cpu 更好时
我知道很多 GPU 比 CPU 快得多的例子。但存在很难并行化的算法(问题)。你能给我一些CPU可以战胜GPU的例子或测试吗? 编辑: 感谢您的建议!我们可以…
OpenCL - 如何查询设备的 SIMD 宽度?
在CUDA中,有一个warp的概念,它被定义为在单个处理元素内可以同时执行相同指令的最大线程数。对于 NVIDIA 来说,当前市场上所有卡的扭曲大小都是 32…
CUDA 凸包程序在大输入时崩溃
我正在尝试在 CUDA 中并行实现 QuickHull 算法(对于凸包)。当 input_size <= 100 万时它可以正常工作。当我尝试 1000 万点时,程序崩溃了。我的显卡…
错误:asm 操作数类型大小 (1) 与约束“r”隐含的类型/大小不匹配。关于 Duane Merrill 的 GPU 基数排序
当我尝试在win-XP + VS2005下编译Merrill的基数排序时出现错误。 错误:asm 操作数类型大小(1) 与约束“r”隐含的类型/大小不匹配。 它出现在以下代码…
opencl 命令队列是如何工作的,我能要求它做什么
我正在研究一种算法,它可以多次执行几乎相同的操作。由于该操作由一些线性代数(BLAS)组成,我想我会尝试使用 GPU 来完成此操作。 我已经编写了内核…