是否值得将 FFT 计算卸载到嵌入式 GPU?
我们正在考虑将应用程序从专用数字信号处理芯片移植到通用 x86 硬件上运行。该应用程序执行大量傅里叶变换,从简短的研究来看,FFT 似乎相当适合在 GP…
我应该研究 PTX 来优化我的内核吗?如果是这样,怎么办?
您是否建议阅读内核的 PTX 代码以进一步优化内核? 一个例子:我读到,可以从 PTX 代码中找出自动循环展开是否有效。如果不是这种情况,则必须在内核…
不同内存空间中的 OpenCL 结构声明
在 OpenCL 中,以下结构声明之间的后果和差异是什么。如果它们是非法的,为什么? struct gr_array { int ndims; __global m_integer* dim_size; __gl…
OpenCL 原子添加操作的奇怪行为
对于一个项目,我必须深入研究 OpenCL:一切进展顺利,只是现在我需要原子操作。 我正在 Nvidia GPU 上使用最新的驱动程序执行 OpenCL 代码。 clGetDe…
OpenGL 与 OpenCL,选择哪个以及为什么?
哪些功能使 OpenCL 能够独特地选择 OpenGL 和 GLSL 进行计算?尽管有与图形相关的术语和不实用的数据类型,OpenGL 是否有任何真正的警告? 例如,可以…
GPU 代码在从 VS2008 运行时和仅运行 .exe 时给出不同的时间
我的代码中有 cuda 事件来记录执行时间。当我在 VS 2008 中单击“开始调试”时,计时器给出的值为 1.5 秒。但是,当我从 .exe 文件运行该程序时,它给…
OpenCL中重复调用enqueueNDRangeKernel
重复调用 enqueueNDRangeKernel 时还应该调用哪些其他 OpenCL 函数? 我无法找到以这种方式显示 enqueueNDRangeKernel 用法的教程,不幸的是,我的编…
将数据从 CPU 传递到 GPU,而不将其作为参数显式传递
是否可以将数据从 CPU 传递到 GPU 而无需显式将其作为参数传递? 我不想将其作为参数传递,主要是出于语法糖的原因 - 我需要传递大约 20 个常量参数,…
CUDA 上的块间屏障
我想在 CUDA 上实现块间屏障,但遇到了严重的问题。 我不明白为什么它不起作用。 #include #include #include #define SIZE 10000000 #define BLOCKS …
GPGPU编程是否只允许执行SIMD指令?
GPGPU编程是否只允许执行SIMD指令? 如果是这样,那么重写一个具有以下特征的算法一定是一项乏味的任务: 被设计为在通用CPU上运行而在GPU上运行?还…
在 OpenCL 中,mem_fence() 与 Barrier() 相比有何作用?
与barrier()(我想我理解)不同,mem_fence()不会影响工作组中的所有项目。 OpenCL 规范规定(第 6.11.10 节),对于 mem_fence(): 命令加载和存储执…
OpenCL 仅读取/写入 1/4 的缓冲存储器,有时会崩溃
我对 OpenCL 有一个问题,那就是它执行整个命令队列,但它只读取 1/4 的输入,只写入 1/4 的结果。 无论迭代多少次,始终是 1/4。 而且它有时会随机崩…
适用于 GPGPU 的完全开源软件 LAMP 式堆栈?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …