当奇数/偶数线程在 CUDA 中执行不同操作时优化代码性能
我有两个大向量,我正在尝试进行某种元素乘法,其中第一个向量中的偶数元素乘以第二个向量中的下一个奇数元素......并且其中奇数元素第一个向量中的元…
cmake:CUDA 目标的特定于目标的预处理器定义似乎不起作用
我在 Mac OSX 10.6 上使用 cmake 2.8.1 和 CUDA 3.0。 所以我添加了一个 CUDA 目标,它需要将 BLOCK_SIZE 设置为某个数字才能编译。 cuda_add_executa…
当 CUDA 线程处于同一循环中并且我们需要同步它们以仅执行有限的部分时,如何同步它们
我已经编写了一些代码,现在我想在 CUDA GPU 上实现它,但我对同步还不熟悉。下面我展示了代码,我希望 LOOP1 由所有线程执行(因此我希望这部分利用 …
Nvidia Tesla 与 480 的 CUDA 编程比较
Closed. This question is off-topic. It is not currently accepting answers. 想要改进此问题吗?更新问题,使其关于- Stack Overflow 的主题。 12…
这个数组比较问题的最佳算法是什么?
解决以下问题最有效的速度算法是什么? 给定 6 个数组,D1、D2、D3、D4、D5 和 D6,每个数组包含 6 个数字,例如: D1[0] = number D2[0] = number ..…
如何将数据传递给 CUDA 中的共享变量?
我有一个传递3个数组的内核,第一个数组d_A1没有数据,仅用于写回数据,其他两个数组d_D1和d_ST1有数据。 第一个数组的大小为: d_A1[13000000] 第二…
尝试“制作” CUDA SDK,ld找不到库,ldconfig说可以
我知道还有很多其他与此类似的问题,但是没有一个解决方案适合我 基本上,制作 SDK 示例文件时,我得到 /usr/bin/ld:找不到-lcuda 这将是一个足够简…
OpenCL+NVidia 的专有计算模式
我对 NVidia+OpenCL 的独占计算模式有疑问。 我可以在 nvidia-gpu 上使用 nvidia-smi 设置独占计算模式(cuda 编程指南 3.0 第 74 页)。这意味着只有…
CUDA 3.0 和 cmake 以及仿真模式
我正在尝试在我的 Mac (OSX 10.6) 上使用 CUDA 和 cmake (v 2.8)。到目前为止,它运行良好,我创建了一个小样本只是为了尝试一下(见下文)。但是,当…
如何修改作为变量参数列表的一部分传递的指针?
我有一个函数,它需要可变数量的指针,我想对其进行修改。它看起来像: void myPointerModifyingFunction (int num_args, ... ) { void *gpu_pointer …
CUDA 结果可以存储在 OpenGL 可访问的纹理中吗?
CUDA可以用来生成OpenGL纹理吗?我知道可以通过将 CUDA 结果读回系统内存,然后将其加载到纹理中来完成...但我想找到一种方法来保存此副本...可以使用…
如何从 CUDA 内核函数返回单个变量?
我有一个 CUDA 搜索函数,可以计算一个变量。我怎样才能把它退回来。 __global__ void G_SearchByNameID(node* Node, long nodeCount, long start,cha…