当前位置：文江博客话题详情

将整数从 GPU 复制到 CPU

发布于 2024-10-22 00:40:24 字数 192 浏览 1 评论 0原文

我需要在每次内核调用之后将单个布尔值或整数值从设备复制到主机（我在 for 循环中调用相同的内核）。也就是说，在每次内核调用之后，我需要将一个整数或布尔值发送回主机。最好的方法是什么？

我应该将值直接写入 RAM 吗？或者我应该使用 cudaMemcpy() 吗？或者还有其他方法可以做到这一点吗？每次内核启动后仅复制 1 个整数是否会减慢我的程序速度？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

薄凉少年不暖心 2024-10-29 00:40:24

让我首先回答您的最后一个问题：

每次内核启动后仅复制 1 个整数是否会减慢我的程序速度？

有点 - 是的。发出命令，等待 GPU 响应，等等……在这种情况下，数据量（1 个整数 vs 100 个整数）可能并不重要。但是，您仍然可以实现每秒数千次内存传输的速度。最有可能的是，您的内核将比此单个内存传输慢（否则，在 CPU 上完成整个任务可能会更好）

执行此操作的最佳方法是什么？

好吧，我会建议自己尝试一下。正如您所说：您可以使用映射固定内存并让内核将值直接存储到 RAM，或者使用 cudaMemcpy。如果您的内核在发送回整数后仍然有一些工作要做，那么第一个可能会更好。在这种情况下，将其发送到主机的延迟可能会被内核的执行隐藏。

如果您使用第一种方法，则必须调用 cudaThreadsynchronize() 来确保内核结束其执行。内核调用是异步的。

您可以使用也是异步的 cudaMemcpyAsync，但 GPU 无法让内核运行并并行执行 cudaMemcpyAsync，除非您使用流。

我从来没有真正尝试过，但是如果循环执行太多次而你的程序不会崩溃，你可能会尝试忽略同步并让它迭代，直到在 RAM 中看到特殊值。在该解决方案中，内存传输可能完全隐藏，您只需在最后支付开销。然而，您需要以某种方式防止循环迭代太多次，CUDA 事件可能会有所帮助。

回复收藏 0 原文

海的爱人是光 2024-10-29 00:40:24

为什么不使用固定内存？如果您的系统支持，请参阅 CUDA C 编程指南中有关固定内存的部分。

回复收藏 0 原文

千秋岁 2024-10-29 00:40:24

将数据复制到 GPU 或从 GPU 复制数据比从 CPU 访问数据要慢得多。如果您没有为此值运行大量线程，那么这将导致性能非常慢，请不要这样做。

您所描述的听起来像是一个串行算法，您的算法需要并行化才能使其值得使用 CUDA 来完成。如果你不能重写你的算法，成为单次写入多个数据到GPU，多个线程，单次将多个数据写入回CPU；那么你的算法应该在CPU上完成。

回复收藏 0 原文

薯片软お妹 2024-10-29 00:40:24

如果您需要在上一个内核调用中计算的值来启动下一个内核调用，则将其序列化，您的选择是 cudaMemcpy(dst,src, size =1, ...);

如果所有内核启动参数不依赖于先前的启动，因此您可以将每次内核调用的所有结果存储在 GPU 内存中，然后立即下载所有结果。

回复收藏 0 原文

~没有更多了~

关于作者

万劫不复

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

将整数从 GPU 复制到 CPU

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

将整数从 GPU 复制到 CPU

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。