NVidia CUDA：二级缓存和多个内核调用

发布于 2024-11-28 12:08:09 字数 134 浏览 1 评论 0原文

我想知道 L2 缓存是否在多个内核调用之间被释放。例如，我有一个内核对数据进行一些预处理，第二个内核则使用它。如果数据大小小于 768 KB 是否可以获得更高的性能？我认为 NVidia 人员没有理由以其他方式实施它，但也许我错了。有人有这方面的经验吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暖阳 2024-12-05 12:08:09

假设您正在谈论 Fermi 中的 L2 数据缓存。

我认为每次内核调用后都会刷新缓存。根据我的经验，连续两次启动同一内核并进行大量内存访问（和 #L2 缓存未命中）不会对 L1/L2 缓存统计数据产生任何实质性变化。

在您的问题中，我认为，根据数据依赖性，可以将两个阶段放入一个内核中（具有一些同步），以便内核的第二部分可以重用第一部分处理的数据。

这是另一个技巧：你知道 GPU 有 N 个 SM，你可以使用前 N * M1 块执行第一部分。接下来的 N * M2 块用于第二部分。使用同步确保第一部分中的所有块同时（或几乎）完成。根据我的经验，块调度顺序确实是确定性的。

希望有帮助。

回复收藏 0 原文

~没有更多了~

关于作者

情深已缘浅

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

NVidia CUDA：二级缓存和多个内核调用

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

NVidia CUDA：二级缓存和多个内核调用

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。