CUDA 分析（解释 gst/gld 请求）

发布于 2024-10-02 21:01:21 字数 282 浏览 4 评论 0原文

cudaprof 中曾经有用于全局内存的分析计数器（gst_coherent、gst_incoherent、gld_coherent、gld_incoherent），这些计数器对我来说非常有用且清晰，因为它们告诉我有多少未合并的全局读取和写入。

现在，似乎只有“gst requests”和“gld requests”。这些是 mp 0 上每个扭曲的总加载/存储。如何确定是否有未合并的读/写？我猜测如果合并请求，请求会更少。我是否应该计算出每个线程的预期数量并进行比较？不幸的是，我的内核太动态了。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

如梦亦如幻 2024-10-09 21:01:21

相干/非相干计数器与 sm_10/sm_11 设备相关，其中访问必须对齐和合并以避免不良性能。在 sm_12 和 sm_13 上，硬件尝试将尽可能的访问合并到段事务中，而在 sm_2x 上，L1 缓存提供了类似的功能，但在无法做到这一点时，还附加了缓存的功能。

理想情况下，您会感觉到正在读取和写入多少数据，并将其与所实现的性能进行比较，这将使您了解效率。然而，鉴于您的内核非常依赖数据，您应该查看 GTC2010 的一些演示文稿，以了解分析器中提供的其他信息。我推荐GPU 基本性能优化谈话，更重要的是，从第一个开始，

您还可以考虑使用一些额外的计数器手动检测代码。

回复收藏 0 原文

~没有更多了~

关于作者

ゝ杯具

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

CUDA 分析（解释 gst/gld 请求）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

CUDA 分析（解释 gst/gld 请求）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。