当前位置：文江博客话题详情

使用cuda的最佳方式

发布于 2024-09-18 18:16:38 字数 160 浏览 2 评论 0原文

使用cuda的方式有：

自动并行工具，如PGI工作站；
包装器如 Thrust（STL 风格）
NVidia GPUSDK（运行时/驱动程序 API）

哪一个在性能或学习曲线或其他因素方面更好？有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦里南柯 2024-09-25 18:16:38

绩效排名可能是 3、2、1。
学习曲线是 (1+2), 3。

如果您成为 CUDA 专家，那么由于控制，使用 GPU SDK 书中的所有技巧几乎不可能击败您手写代码的性能它给你的。

也就是说，像 Thrust 这样的包装器是由 NVIDIA 工程师编写的，并且在几个问题上显示与手动 CUDA 相比具有 90-95+% 的效率。它们所具有的归约、扫描和许多很酷的迭代器对于解决很多类型的问题也很有用。

自动并行化工具往往无法像卡尔菲利普提到的那样在不同的内存类型上表现得那么好。

我首选的工作流程是使用 Thrust 尽可能多地编写，然后使用 GPU SDK 来完成其余的工作。这在很大程度上是为了减少开发时间和提高可维护性而不要牺牲太多性能的因素。

回复收藏 0 原文

青衫负雪 2024-09-25 18:16:38

使用传统的 CUDA SDK，以获得性能和更小的学习曲线。

CUDA 公开了多种类型的内存（全局、共享、纹理），这些内存对应用程序的性能有巨大的影响，网上有很多关于它的文章。

此页面非常有趣，并提到了博士。多布的。

回复收藏 0 原文

娇纵 2024-09-25 18:16:38

我相信 NVIDIA GPU SDK 是最好的，但有一些注意事项。例如，尽量避免使用 cutil.h 函数，因为这些函数是专门为与 SDK 一起使用而编写的，我个人以及许多其他人都遇到了其中的一些问题和错误，这些问题和错误很难解决修复（这个“库”也没有文档，而且我听说 NVIDIA 根本不支持它）

相反，正如您提到的，使用提供的两个 API 之一。我特别推荐运行时 API，因为它是更高级别的 API，因此您不必像在设备 API 中那样担心所有低级别实现细节。

这两个 API 均完整记录在《CUDA 编程指南》和《CUDA 参考指南》中，两者均随每个 CUDA 版本更新并提供。

回复收藏 0 原文

笑叹一世浮沉 2024-09-25 18:16:38

这取决于您想在 GPU 上做什么。如果您的算法能够从 Thrust 提供的功能中受益匪浅，例如归约、前缀、总和，那么 Thrust 绝对值得一试，我敢打赌您自己无法在纯 CUDA C 中更快地编写代码。

但是，如果您要移植已经从 CPU 到 GPU 的并行算法，用普通的 CUDA C 编写它们可能会更容易。我已经有成功的项目，沿着这条路线有很好的加速，并且执行实际计算的 CPU/GPU 代码几乎相同。

您可以在某种程度上结合这两种范例，但据我所知，如果您想将所有内容都放在一个大的胖内核中（将过于频繁的内核启动排除在外），那么您将为每个推力调用启动新的内核，您必须将纯 CUDA C 与 SDK 一起使用。

我发现纯 CUDA C 实际上更容易学习，因为它可以让您很好地理解 GPU 上发生的事情。 Thrust 在代码行之间添加了很多魔力。

我从未使用过自动并行工具，例如 PGI 工作站，但我不建议在方程式中添加更多“魔法”。

回复收藏 0 原文

~没有更多了~

关于作者

旧城烟雨

暂无简介

0 文章

0 评论

402 人气

关注发私信

友情链接

文江博客

使用cuda的最佳方式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

使用cuda的最佳方式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。