CUDA 和 HPC 中的一维问题
我正在寻找 CUDA 和 HPC 中的一些一维问题,例如 Black Scholes。 我所说的一维问题是指所有工作都在一维数组上完成的问题。虽然矩阵乘法可以用这种方…
CUDA warp 中的线程是否在多处理器上并行执行?
一个经纱是 32 个线程。 32 个线程在多处理器中并行执行吗? 如果 32 个线程没有并行执行,则 warp 中不存在竞争条件。 在看了一些例子后我产生了这个…
“空”使用 openGL 进行渲染
规格:Radeon 3870HD,带 openGL 3.3 和GLSL 1.5 我通过计算着色器渲染数据。由于依赖性,我必须将所有数据放入统一的纹理中,并且没有留下任何属性。…
在 Mac 上使用 JOCL 的帮助
我正在尝试在我的 Mac 上运行本教程。 本教程适用于 Windows,并打包了 jocl 版本 1.3 (JOCL-0.1.3a-beta.jar) 和适用于 Windows 的本机 jocl dll (JO…
CUDA int4 按位运算
我想知道 CUDA 的向量类型(如 int4/int2)是否有可用的按位运算?我在 cutil_math.h 中看到很多辅助函数,但没有任何位(左移/右移)操作,所以我可…
什么是真正的 C++ CUDA 设备代码支持的语言结构?
CUDA 文档 3.2 版本的附录 D 提到了 CUDA 设备代码中的 C++ 支持。 明确提到CUDA支持“计算能力2.x设备的类”。但是,我正在使用计算能力 1.1 和 1.3 …
Cuda 中的线程索引
我在我的 8000 系列设备(支持 CUDA)上运行以下代码: #include __global__ void testSet(int * MyBlock) { unsigned int ThreadIDX= threadIdx.x+bl…
有什么方法可以找出和/或限制 Windows 中进程的 GPU 使用情况吗?
我想在某些机器上启动 CPU 和 GPU 密集型进程,但这些进程不得干扰用户的任务。因此,我需要限制或至少检测我的进程对 GPU 的使用情况。这些进程是闭…
弄清楚 cuda 内核有多少个块和线程,以及如何使用它们
我一直在试图弄清楚如何制作一个我认为简单的内核来取二维矩阵中值的平均值,但我在直接思考过程中遇到了一些问题。 根据我的 deviceQuery 输出,我的…
一次 I/O 执行速度比一次读取一点要慢
我正在致力于优化和算法,我们正准备使用 cuda 将其放在 GPU 上。 I/O 部分从 3 个不同的图像中读取,一次读取一行。这正好位于在图像上运行过滤器的…
我可以将特定数据预取到 CUDA 内核中的特定缓存级别吗?
据我所知,Fermi GPU 支持预取 L1 或 L2 缓存。然而,在CUDA参考手册中我找不到任何相关内容。 CUDA 允许我的内核代码将特定数据预取到特定级别的缓存…
通过CUDA线程复制全局内存
我需要通过 CUDA 线程(而不是从主机)将全局内存中的一个数组复制到全局内存中的另一个数组。 我的代码如下: __global__ void copy_kernel(int *g_d…