Fermi GPU (GTX 580) 中分析执行指令和发出指令的奇怪结果
我的内核有这样的ptx版本: .version 2.2 .target sm_20, texmode_independent .entry histogram( .param .u32 .ptr .global .align 4 histogram_para…
CUDA:我可以知道我是否有全局内存合并吗?
我使用的是 GeForce GTX 580(计算能力 2.0)。 在我的程序中,我怀疑瓶颈是对内核中全局内存的访问。我怀疑这一点是因为所有计算都涉及通过索引全局…
如何“串流”全局内存中的数据?
codeproject.com 展示第 2 部分:OpenCL™ – 内存空间 指出全局内存应被视为流内存 [...]并且当流连续内存地址或内存访问模式可以利用内存子系统的全…
CUDA memcheck 地址 - 如何确定代码中的位置?
cuda-memcheck 正在报告发布模式 CUDA 内核的此信息: ========= Error: process didn't terminate successfully ========= Invalid __global__ read …
Cayman 科学计算架构中的本地数据存储与纹理缓存
我正在尝试在 ATI HD 6990 卡(Cayman 架构)上使用 AMD-APP-SDK 2.4 实现 GEMM 实现。 优化技术之一是使用分块/平铺。 在其实现中,如果我们将子矩阵…
Opengl Es如何用于gpgpu实现
我想使用 Opengl Es 进行图像处理代码的 gpgpu 实现。我想知道我可以使用 Opengl Es 来实现此目的吗?如果可以的话,哪个版本的 Opengl Es 将更适合此…
Myers Diff 适合在 GPU 上运行吗?
我有兴趣通过在 GPU(即使用 OpenCL)上运行来实现更快的 Myers diff 实现。我对该算法有很好的了解,但对 GPU 编程还是新手。我的预感是 GPU 的性能…
2D/3D CUDA 块如何划分为扭曲?
如果我从一个块具有尺寸的网格开始我的内核: dim3 block_dims(16,16); 网格块现在如何分割成扭曲?这样一个块的前两行是否形成一个扭曲,或者前两列…
我什么时候可以发布源 PBO?
我正在使用 PBO 在 CPU 和 GPU 之间异步移动数据。 当从 GPU 移动时,我知道在 PBO 上调用 glMapBuffer 后可以删除源纹理。 然而,反过来又如何呢?我…
Boost::thread() 和 Nvidia CUDA 是否存在某种不兼容性?
我正在开发一个通用的流式 CUDA 内核执行框架,它允许并行数据复制和复制。在 GPU 上执行。 目前,我正在 C++ 静态函数包装器中调用 cuda 内核,因此…