第 3 页 - cuda - 文江博客

投稿关注

cuda

文章 23 浏览 78

高性能计算术语：GF/s 是什么？

我正在阅读这篇Dobb 博士关于 CUDA 的文章在我的系统中，全局内存带宽略高于 60 GB/s。这非常好，直到您认为该带宽必须服务 128 个硬件线程——每个…

时光清浅 2024-12-09 07:53:22 0 0

通过增加占用率来提高内核性能？

以下是 GT 440 上我的内核的计算视觉分析器的输出：内核详细信息：网格大小：[100 1 1]，块大小：[256 1 1] 寄存器比率：0.84375 ( 27648 / 32768 ) …

时光病人 2024-12-09 06:55:20 0 0

如何将嵌套结构的成员复制到 CUDA 设备的内存空间？

我正在尝试将一些嵌套结构复制到设备内存，以便在 CUDA 加速神经网络模拟器中使用内核。此代码链接并运行，但它抛出一些异常和 CUDA 错误： typedef s…

爱给你人给你 2024-12-09 06:12:38 1 0

CUDA 中共享内存的原子操作

我使用 GTX 280，其计算能力为 1.3，并支持共享内存上的原子操作。我正在使用 cuda SDK 2.2 和 VS 2005。在我的程序中，我必须广泛使用原子操作，因为…

你对谁都笑 2024-12-09 00:37:18 0 0

CUDA OPENGL 互操作性：cudaGLSetGLDevice

遵循CUDA 4.0的编程指南，我调用cudaGLSetGLDevice 在任何其他运行时调用之前。但下一个 cuda 调用 cudaMalloc 返回“所有支持 CUDA 的设备都忙或不可…

不奢求什么 2024-12-08 22:22:33 1 0

CUDA 上的块间屏障

我想在 CUDA 上实现块间屏障，但遇到了严重的问题。我不明白为什么它不起作用。 #include #include #include #define SIZE 10000000 #define BLOCKS …

单身情人 2024-12-08 21:44:44 0 0

使用 CUDA Thrust 查找最大元素值及其位置

如何不仅获取值，还获取最大（最小）元素（res.val 和 res.pos）的位置？ thrust::host_vector h_vec(100); thrust::generate(h_vec.begin(), h_vec.e…

蒲公英的约定 2024-12-08 20:47:09 0 0

JCuda错误：未定义符号：Pointer_buffer

我正在尝试在 Debian Linux（32 位）中运行 JCuda 示例。由于 JCuda 网站上没有适用于 Linux x86 的二进制文件，因此我编译了这些库。现在我正在尝试…

剪不断理还乱 2024-12-08 20:19:14 0 0

具有该块的输出的cuda过滤器是下一个块的输入

在处理以下过滤器时，我在执行这些代码段以在 GPU 中处理图像时遇到问题： for(int h=0; h

渔村楼浪 2024-12-08 14:33:46 0 0

我实际上可以在cuda卡上分配多少内存

我正在编写一个使用 cuda 在 GPU 上执行计算的服务器进程。我想对传入请求进行排队，直到设备上有足够的内存来运行作业，但我很难计算出可以在设备上…

长安忆 2024-12-08 13:29:54 0 0

从 Thrust::device_vector 到原始指针并返回？

我了解如何从向量转换为原始指针，但我跳过了如何向后转换的节拍。 // our host vector thrust::host_vector hVec; // pretend we put data in it her…

谁对谁错谁最难过 2024-12-08 10:46:37 0 0

cuda 头文件 .cuh 私有主机函数

在 cuda 中，我们可以创建扩展名为 .cuh 的头文件，并且可以从任何地方调用这些函数，例如， __device__ void doSomething() { .................... …

染年凉城似染瑾 2024-12-08 10:11:03 0 0

使用 CUDA 显示 GPU 优于 CPU 的最简单示例

我正在寻找最简洁的代码量，可以为 CPU（使用 g++）和 GPU（使用 nvcc）编写代码，并且 GPU 的性能始终优于 CPU。任何类型的算法都是可以接受的。澄…

南城旧梦 2024-12-08 08:20:38 0 0

Parallel NSight for Visual studio 2010 支持在服务器上调试吗？

我已经安装了 Parallel Nsight for Visual Studio 2010。根据我的研究，它无法在没有 NVIDIA 显卡的机器上进行调试。因此，我想在服务器上调试它（连…

白馒头 2024-12-08 03:41:44 0 0

屈服于 OpenMP 中的其他线程/任务

我想将 OpenMP 与 CUDA 结合使用来实现重叠内核执行。这些内核调用都是异步的，但我在启动之间的代码很少，因此各个 OpenMP 线程在尝试启动另一个内核…

回忆那么伤 2024-12-07 22:41:24 0 0

共 58 页
上一页
1
2
3
4
5
下一页

关注

友情链接

文江博客

cuda

高性能计算术语：GF/s 是什么？

通过增加占用率来提高内核性能？

如何将嵌套结构的成员复制到 CUDA 设备的内存空间？

CUDA 中共享内存的原子操作

CUDA OPENGL 互操作性：cudaGLSetGLDevice

CUDA 上的块间屏障

使用 CUDA Thrust 查找最大元素值及其位置

JCuda错误：未定义符号：Pointer_buffer

具有该块的输出的cuda过滤器是下一个块的输入

我实际上可以在cuda卡上分配多少内存

从 Thrust::device_vector 到原始指针并返回？

cuda 头文件 .cuh 私有主机函数

使用 CUDA 显示 GPU 优于 CPU 的最简单示例

Parallel NSight for Visual studio 2010 支持在服务器上调试吗？

屈服于 OpenMP 中的其他线程/任务

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接