当前位置：文江博客话题详情

Cuda cudaMemcpy 和 cudaMalloc

发布于 2024-11-05 03:34:18 字数 85 浏览 1 评论 0原文

我总是读到从 cpu 到 gpu 的分配和传输数据很慢。这是因为 cudaMalloc 很慢吗？是因为 cudaMemcpy 慢吗？或者是因为他们俩都很慢？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我是有多爱你 2024-11-12 03:34:18

它主要与两件事相关，首先是卡和CPU之间的PCIExpress总线的速度。另一个与这些功能的运作方式有关。现在，我认为新的 CUDA 4 对内存分配（标准或固定）有更好的支持，并且提供了一种通过总线透明地访问内存的方法。

现在，让我们面对现实吧，在某些时候，您需要从 A 点获取数据到 B 点来计算某些内容。最好的处理方法是要么进行非常大的计算，要么使用 CUDA 流来重叠 GPU 上的传输和计算。

回复收藏 0 原文

暮倦 2024-11-12 03:34:18

在大多数应用程序中，您应该在开始时执行一次 cudaMalloc，然后不再调用它。因此，瓶颈实际上是cudaMemcpy。

这是由于身体限制造成的。对于标准 PCI-E 2.0 x16 链路，理论上您将获得 8GB/s，但实际上通常为 5-6GB/s。将此与 GTX460 等中档 Fermi 进行比较，设备上的带宽为 80+GB/s。实际上，您的内存带宽受到了一个数量级的影响，从而相应地增加了数据传输时间。

GPGPU 应该是超级计算机，我相信 Seymour Cray（超级计算机专家）说过，“超级计算机将计算限制问题转化为 I/O 限制问题”。因此，优化数据传输就是一切。

根据我个人的经验，迭代算法是迄今为止通过移植到 GPGPU（2-3 个数量级）而显示出最佳改进的算法，因为您可以通过将所有内容保留在 GPU 上来消除传输时间。

回复收藏 0 原文

~没有更多了~

关于作者

走过海棠暮

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

Cuda cudaMemcpy 和 cudaMalloc

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

隔纱相望

昵称有卵用

梨涡

蓝咒

白芷

樱娆

友情链接

Cuda cudaMemcpy 和 cudaMalloc

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

隔纱相望

昵称有卵用

梨涡

蓝咒

白芷

樱娆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。