第 2 页 - cuda - 文江博客

投稿关注

cuda

文章 23 浏览 78

X 转发具有 OpenGL 扩展的 CUDA SDK 应用程序

我正在尝试从 CUDA SDK X 转发演示应用程序，但收到此错误： Xlib: extension "NV-GLX" missing on display "localhost:10.0". ERROR: Support for ne…

初雪 2024-12-10 22:46:01 1 0

如何确定内核是否受内存限制或计算限制？

我认为我的内核受内存限制（因为大多数 GPGPU 代码受内存限制），但我实际上并不确定。我怎样才能自己找到它。可能必须使用视觉分析器，因为它取决于…

烙印 2024-12-10 18:40:50 0 0

Nvidia CUDA 中的预取

我正在 nVidia CUDA 中进行数据预取。我阅读了一些有关设备本身预取的文档，即从共享内存预取到缓存。但我对 CPU 和 GPU 之间的数据预取感兴趣。任何…

-黛色若梦 2024-12-10 17:34:49 0 0

放置常量内存的最佳位置，该内存在内核启动之前已知且从未更改

我有一个整数数组，其大小在内核启动之前已知，但在编译阶段未知。大小的上限约为 10000 个 float3 元素（我猜这意味着 10000 * 3 * 4 = ~120KB）。它…

ㄟ。诗瑗 2024-12-10 17:20:23 0 0

错误：CUDA 同步上的 BFS

我的以下代码出现错误，当它运行时，一些图权重被覆盖，但是 Xa 数组（它保留已访问过的数组）和 __syncthreads() 函数不应该发生这种情况...有人帮忙…

风向决定发型 2024-12-10 16:21:38 0 0

QT + CUDA设置qmake.pro文件

我正在尝试使用 Helloworld.cu 示例制作一个简单的 Qt + Cuda 框架。这是有史以来最简单的 Qt。我正在尝试使用 .pro 文件创建项目文件。我的设置是 Wi…

哭泣的笑容 2024-12-10 13:52:05 1 0

CUDA Nvidia NSight 调试：“CUDA 网格启动失败”

当我尝试调试任意 CUDA 应用程序时，例如 Nvidia GPU 计算 SDK 4.0 中的矩阵乘法或卷积可分离示例，我总是得到类似于以下内容的输出： Parallel Nsigh…

寄意 2024-12-10 11:04:54 0 0

GPU 上的排序列表交集

我知道如何使用 O(n+m) 算法在 CPU 上交叉两个排序列表，其中 n 和 m 是两个列表的长度。然而，是否有一种好的算法可以在 GPU 上交叉两个列表来避免写…

纸短情长 2024-12-10 06:53:58 0 0

Visual Studio 中的 Cuda 编译问题

我必须使用 CUDA 将人群模拟应用程序移植到 GPU 上。为此，我请 Simon Boots 完成了这项工作，他已成功将 C++ opensteer 库移植到 CUDA 上。但我无法…

￡冰雨忧蓝° 2024-12-10 02:22:24 0 0

cuda 跟踪仿真 - 需要一些专家的见解

作为研究生院研究工作的一部分，我正在 Windows 中开发 GPU 跟踪仿真工具。具体来说，我正在研究 cuda 运行时跟踪仿真。我使用 MS Detours 进行简单…

青衫儰鉨ミ守葔 2024-12-09 23:17:26 0 0

如何使用 blas 以最佳方式转置矩阵？

我正在做一些计算，并对不同 BLAS 实现的优势和弱点进行一些分析。但是我遇到了一个问题。我正在测试 cuBlas，在 GPU 上执行 linAlg 似乎是一个好主…

在巴黎塔顶看东京樱花 2024-12-09 20:13:59 0 0

CUDA 中的忙旋转

如何实现一种繁忙的自旋机制， while(variable == 0); 其中变量在发生某个事件后由其他 CUDA 线程更新为 1。我尝试像上面那样编写它，但代码似乎被忽…

梦年海沫深 2024-12-09 19:47:28 0 0

将数据从 CPU 传递到 GPU，而不将其作为参数显式传递

是否可以将数据从 CPU 传递到 GPU 而无需显式将其作为参数传递？我不想将其作为参数传递，主要是出于语法糖的原因 - 我需要传递大约 20 个常量参数，…

暮光沉寂 2024-12-09 17:17:14 0 0

cuda c 程序中得到错误的值

我正在尝试在 cuda C 中模拟矩阵乘法。除了输出之外，一切都正确。这是我的程序： #include #include #include #include #define N 4 #define TILE_W…

妄想挽回 2024-12-09 15:18:38 0 0

为什么《CUDA 编程指南》中 char3 的对齐大小为 1？

我发现 char1 的对齐方式为 1，char2 的对齐方式为 2，char3 的对齐方式为 1，char4 的对齐方式为4. 为什么 char3 的对齐大小是 1 而不是 3？我还需…

不知在何时 2024-12-09 12:58:35 1 0

共 58 页
上一页
1
2
3
4
5
下一页

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

cuda

X 转发具有 OpenGL 扩展的 CUDA SDK 应用程序

如何确定内核是否受内存限制或计算限制？

Nvidia CUDA 中的预取

放置常量内存的最佳位置，该内存在内核启动之前已知且从未更改

错误：CUDA 同步上的 BFS

QT + CUDA设置qmake.pro文件

CUDA Nvidia NSight 调试：“CUDA 网格启动失败”

GPU 上的排序列表交集

Visual Studio 中的 Cuda 编译问题

cuda 跟踪仿真 - 需要一些专家的见解

如何使用 blas 以最佳方式转置矩阵？

CUDA 中的忙旋转

将数据从 CPU 传递到 GPU，而不将其作为参数显式传递

cuda c 程序中得到错误的值

为什么《CUDA 编程指南》中 char3 的对齐大小为 1？

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接