cuda

cuda

文章 23 浏览 78

X 转发具有 OpenGL 扩展的 CUDA SDK 应用程序

我正在尝试从 CUDA SDK X 转发演示应用程序,但收到此错误: Xlib: extension "NV-GLX" missing on display "localhost:10.0". ERROR: Support for ne…

初雪 2024-12-10 22:46:01 1 0

如何确定内核是否受内存限制或计算限制?

我认为我的内核受内存限制(因为大多数 GPGPU 代码受内存限制),但我实际上并不确定。我怎样才能自己找到它。可能必须使用视觉分析器,因为它取决于…

烙印 2024-12-10 18:40:50 0 0

Nvidia CUDA 中的预取

我正在 nVidia CUDA 中进行数据预取。我阅读了一些有关设备本身预取的文档,即从共享内存预取到缓存。 但我对 CPU 和 GPU 之间的数据预取感兴趣。任何…

-黛色若梦 2024-12-10 17:34:49 0 0

放置常量内存的最佳位置,该内存在内核启动之前已知且从未更改

我有一个整数数组,其大小在内核启动之前已知,但在编译阶段未知。大小的上限约为 10000 个 float3 元素(我猜这意味着 10000 * 3 * 4 = ~120KB)。它…

ㄟ。诗瑗 2024-12-10 17:20:23 0 0

错误:CUDA 同步上的 BFS

我的以下代码出现错误,当它运行时,一些图权重被覆盖,但是 Xa 数组(它保留已访问过的数组)和 __syncthreads() 函数不应该发生这种情况...有人帮忙…

风向决定发型 2024-12-10 16:21:38 0 0

QT + CUDA设置qmake.pro文件

我正在尝试使用 Helloworld.cu 示例制作一个简单的 Qt + Cuda 框架。这是有史以来最简单的 Qt。我正在尝试使用 .pro 文件创建项目文件。我的设置是 Wi…

哭泣的笑容 2024-12-10 13:52:05 1 0

CUDA Nvidia NSight 调试:“CUDA 网格启动失败”

当我尝试调试任意 CUDA 应用程序时,例如 Nvidia GPU 计算 SDK 4.0 中的矩阵乘法或卷积可分离示例,我总是得到类似于以下内容的输出: Parallel Nsigh…

寄意 2024-12-10 11:04:54 0 0

GPU 上的排序列表交集

我知道如何使用 O(n+m) 算法在 CPU 上交叉两个排序列表,其中 n 和 m 是两个列表的长度。然而,是否有一种好的算法可以在 GPU 上交叉两个列表来避免写…

纸短情长 2024-12-10 06:53:58 0 0

Visual Studio 中的 Cuda 编译问题

我必须使用 CUDA 将人群模拟应用程序移植到 GPU 上。为此,我请 Simon Boots 完成了这项工作,他已成功将 C++ opensteer 库移植到 CUDA 上。但我无法…

£冰雨忧蓝° 2024-12-10 02:22:24 0 0

cuda 跟踪仿真 - 需要一些专家的见解

作为研究生院研究工作的一部分,我正在 Windows 中开发 GPU 跟踪仿真工具。具体来说,我正在研究 cuda 运行时跟踪仿真。 我使用 MS Detours 进行简单…

青衫儰鉨ミ守葔 2024-12-09 23:17:26 0 0

如何使用 blas 以最佳方式转置矩阵?

我正在做一些计算,并对不同 BLAS 实现的优势和弱点进行一些分析。但是我遇到了一个问题。 我正在测试 cuBlas,在 GPU 上执行 linAlg 似乎是一个好主…

在巴黎塔顶看东京樱花 2024-12-09 20:13:59 0 0

CUDA 中的忙旋转

如何实现一种繁忙的自旋机制, while(variable == 0); 其中变量在发生某个事件后由其他 CUDA 线程更新为 1。 我尝试像上面那样编写它,但代码似乎被忽…

梦年海沫深 2024-12-09 19:47:28 0 0

将数据从 CPU 传递到 GPU,而不将其作为参数显式传递

是否可以将数据从 CPU 传递到 GPU 而无需显式将其作为参数传递? 我不想将其作为参数传递,主要是出于语法糖的原因 - 我需要传递大约 20 个常量参数,…

暮光沉寂 2024-12-09 17:17:14 0 0

cuda c 程序中得到错误的值

我正在尝试在 cuda C 中模拟矩阵乘法。除了输出之外,一切都正确。 这是我的程序: #include #include #include #include #define N 4 #define TILE_W…

妄想挽回 2024-12-09 15:18:38 0 0

为什么《CUDA 编程指南》中 char3 的对齐大小为 1?

我发现 char1 的对齐方式为 1,char2 的对齐方式为 2,char3 的对齐方式为 1,char4 的对齐方式为4. 为什么 char3 的对齐大小是 1 而不是 3? 我还需…

不知在何时 2024-12-09 12:58:35 1 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文