GTS 250 和 Fermi 器件之间的 CUDA 块同步差异
所以我一直在研究一个在全局内存中创建哈希表的程序。该代码在 GTS250(Compute 1.1 设备)上完全可用(尽管速度较慢)。但是,在 Compute 2.0 设备(…
有关数据并行编程和算法的好书籍和资源
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
CUDA 和 HPC 中的一维问题
我正在寻找 CUDA 和 HPC 中的一些一维问题,例如 Black Scholes。 我所说的一维问题是指所有工作都在一维数组上完成的问题。虽然矩阵乘法可以用这种方…
CUDA warp 中的线程是否在多处理器上并行执行?
一个经纱是 32 个线程。 32 个线程在多处理器中并行执行吗? 如果 32 个线程没有并行执行,则 warp 中不存在竞争条件。 在看了一些例子后我产生了这个…
“空”使用 openGL 进行渲染
规格:Radeon 3870HD,带 openGL 3.3 和GLSL 1.5 我通过计算着色器渲染数据。由于依赖性,我必须将所有数据放入统一的纹理中,并且没有留下任何属性。…
在 Mac 上使用 JOCL 的帮助
我正在尝试在我的 Mac 上运行本教程。 本教程适用于 Windows,并打包了 jocl 版本 1.3 (JOCL-0.1.3a-beta.jar) 和适用于 Windows 的本机 jocl dll (JO…
CUDA int4 按位运算
我想知道 CUDA 的向量类型(如 int4/int2)是否有可用的按位运算?我在 cutil_math.h 中看到很多辅助函数,但没有任何位(左移/右移)操作,所以我可…
什么是真正的 C++ CUDA 设备代码支持的语言结构?
CUDA 文档 3.2 版本的附录 D 提到了 CUDA 设备代码中的 C++ 支持。 明确提到CUDA支持“计算能力2.x设备的类”。但是,我正在使用计算能力 1.1 和 1.3 …
Cuda 中的线程索引
我在我的 8000 系列设备(支持 CUDA)上运行以下代码: #include __global__ void testSet(int * MyBlock) { unsigned int ThreadIDX= threadIdx.x+bl…