为什么 256 或 512 的 CUDA 块大小比其他块大小能提供更好的性能?
我在 Windows 7 上用 CUDA C 编写了一些程序。我对块大小进行了实验。我发现在大多数情况下,256 或 512 的块大小比其他块大小提供更好的性能。谁能告…
YDL.net 的 Eclipse CUDA 插件是否已准备好支持 CUDA 4.0
我刚刚安装了 CUDA 4.0 Toolkit,以及用于 Eclipse Helios 的 CUDA 插件 AMD64 Ubuntu 10.10 机器。我已经能够成功编译所有 NVIDIA GPU 计算 SDK 示例…
函数内的推力计数迭代器
非常感谢您在 Cuda Thrust Custom function 的答案, 如果我想通过的话,最后一件事另一个向量来复制这样的值? for (i=0;i
如何评估 CUDA GPU 的相对性能?
我怎样才能估计我不拥有的卡的cuda性能,即。新卡? 例如,我发现了一个不完整的 Cuda 示例,作者写道,他在 GF 8600 GT 上花费了 0.7 秒。但在我的 Q…
cuda sdk 示例带宽测试 - 构建失败
我正在尝试从cuda sdk构建bandwidthTest_vs2010,但出现错误:1>LINK:致命错误LNK1104:无法打开文件'shrUtils32D.lib' 其他库目录包含: $(CudaTool…
GPU 的哈希表实现
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
__global__ 函数中的动态内存分配
我有一张 CC 1.1 卡,我的程序需要我在全局或设备函数中动态分配数组。 将为每个执行线程创建这些数组。 malloc 抛出错误,网上冲浪告诉我,对于小于 …
Cuda 更改数组中的单个值
我在 CUDA 设备内存中计算了一个名为 d_index 的向量,我只想更改一个值,如下所示... d_index[columnsA-rowsA]=columnsA; 我怎样才能做到这一点,而…
Cuda Thrust 自定义函数
如何在 Thrust 中实现这个功能? for (i=0;i
使用 nvcc 在 CUDA 中编译模板函数时出错
我有以下 CUDA 代码: enum METHOD_E { METH_0 = 0, METH_1 }; template inline __device__ int test_func() { return int(METH); } __global__ void …
CUDPP 排序比 THRUST 快?那么结构体数组呢?
我有一个结构数组,我想对它们进行排序。我一直在使用 Thrust::sort 并且效果很好。然后人们告诉我 CUDPP 的排序速度更快,但我发现不可能直接对结构…
添加 CUDA dll 作为对显示错误的 C# 项目的引用
我已经制作了一个简单的 CUDA dll,代码如下所示。该函数向数组添加一些值。 #include #include #include //Cuda Kernel __global__ void add_gpu(flo…