cuda

cuda

文章 23 浏览 78

高性能计算术语:GF/s 是什么?

我正在阅读这篇Dobb 博士关于 CUDA 的文章 在我的系统中,全局内存带宽略高于 60 GB/s。 这非常好,直到您认为该带宽必须服务 128 个硬件线程——每个…

时光清浅 2024-12-09 07:53:22 0 0

通过增加占用率来提高内核性能?

以下是 GT 440 上我的内核的计算视觉分析器的输出: 内核详细信息:网格大小:[100 1 1],块大小:[256 1 1] 寄存器比率:0.84375 ( 27648 / 32768 ) …

时光病人 2024-12-09 06:55:20 0 0

如何将嵌套结构的成员复制到 CUDA 设备的内存空间?

我正在尝试将一些嵌套结构复制到设备内存,以便在 CUDA 加速神经网络模拟器中使用内核。此代码链接并运行,但它抛出一些异常和 CUDA 错误: typedef s…

爱给你人给你 2024-12-09 06:12:38 1 0

CUDA 中共享内存的原子操作

我使用 GTX 280,其计算能力为 1.3,并支持共享内存上的原子操作。我正在使用 cuda SDK 2.2 和 VS 2005。在我的程序中,我必须广泛使用原子操作,因为…

你对谁都笑 2024-12-09 00:37:18 0 0

CUDA OPENGL 互操作性:cudaGLSetGLDevice

遵循CUDA 4.0的编程指南,我调用cudaGLSetGLDevice 在任何其他运行时调用之前。但下一个 cuda 调用 cudaMalloc 返回“所有支持 CUDA 的设备都忙或不可…

不奢求什么 2024-12-08 22:22:33 1 0

CUDA 上的块间屏障

我想在 CUDA 上实现块间屏障,但遇到了严重的问题。 我不明白为什么它不起作用。 #include #include #include #define SIZE 10000000 #define BLOCKS …

单身情人 2024-12-08 21:44:44 0 0

使用 CUDA Thrust 查找最大元素值及其位置

如何不仅获取值,还获取最大(最小)元素(res.val 和 res.pos)的位置? thrust::host_vector h_vec(100); thrust::generate(h_vec.begin(), h_vec.e…

蒲公英的约定 2024-12-08 20:47:09 0 0

JCuda错误:未定义符号:Pointer_buffer

我正在尝试在 Debian Linux(32 位)中运行 JCuda 示例。由于 JCuda 网站上没有适用于 Linux x86 的二进制文件,因此我编译了这些库。现在我正在尝试…

剪不断理还乱 2024-12-08 20:19:14 0 0

具有该块的输出的cuda过滤器是下一个块的输入

在处理以下过滤器时,我在执行这些代码段以在 GPU 中处理图像时遇到问题: for(int h=0; h

渔村楼浪 2024-12-08 14:33:46 0 0

我实际上可以在cuda卡上分配多少内存

我正在编写一个使用 cuda 在 GPU 上执行计算的服务器进程。我想对传入请求进行排队,直到设备上有足够的内存来运行作业,但我很难计算出可以在设备上…

长安忆 2024-12-08 13:29:54 0 0

从 Thrust::device_vector 到原始指针并返回?

我了解如何从向量转换为原始指针,但我跳过了如何向后转换的节拍。 // our host vector thrust::host_vector hVec; // pretend we put data in it her…

谁对谁错谁最难过 2024-12-08 10:46:37 0 0

cuda 头文件 .cuh 私有主机函数

在 cuda 中,我们可以创建扩展名为 .cuh 的头文件,并且可以从任何地方调用这些函数,例如, __device__ void doSomething() { .................... …

染年凉城似染瑾 2024-12-08 10:11:03 0 0

使用 CUDA 显示 GPU 优于 CPU 的最简单示例

我正在寻找最简洁的代码量,可以为 CPU(使用 g++)和 GPU(使用 nvcc)编写代码,并且 GPU 的性能始终优于 CPU。任何类型的算法都是可以接受的。 澄…

南城旧梦 2024-12-08 08:20:38 0 0

Parallel NSight for Visual studio 2010 支持在服务器上调试吗?

我已经安装了 Parallel Nsight for Visual Studio 2010。根据我的研究,它无法在没有 NVIDIA 显卡的机器上进行调试。 因此,我想在服务器上调试它(连…

白馒头 2024-12-08 03:41:44 0 0

屈服于 OpenMP 中的其他线程/任务

我想将 OpenMP 与 CUDA 结合使用来实现重叠内核执行。这些内核调用都是异步的,但我在启动之间的代码很少,因此各个 OpenMP 线程在尝试启动另一个内核…

回忆那么伤 2024-12-07 22:41:24 0 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文