当前位置：文江博客话题详情

计算教授的非相干和相干 gst/gld 场？（CUDA/OpenCL）

发布于 2024-09-26 04:20:50 字数 508 浏览 11 评论 0原文

我正在使用 Compute Prof 3.2 和 Geforce GTX 280。我相信我的计算能力为 1.3。

此文件，似乎表明我应该能够看到这些字段，因为我使用的是 1.x 计算设备。嗯，我没有看到它们，3.2 工具包的用户指南说我看不到它们，但将它们称为 gst_uncoalesced 和 gst_coalesced。

总而言之，如果我从全局内存中进行非合并读取，我很困惑应该如何从探查器中找出答案。看起来费米卡也不会说，但我现在并不担心它们。如果有人能详细说明一下情况，我将不胜感激。

另外，我被告知要查看内核的组装来解决这个问题，因此任何关于如何做到这一点的详细说明也值得赞赏。我也刚刚开始尝试解决这个问题:)

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

拔了角的鹿 2024-10-03 04:20:50

我在分析输出时也遇到了类似的问题。虽然在 8600（计算能力 1.0）上它显示了合并和未合并的读/写，但它在 GTX280 上仅显示合并。我认为这是由于 gtx 280 上更好的合并使得剪切变得不太清晰（是不是除了一个单词之外的所有内容都不需要未合并的内存读取？）。不过，您可以只查看汇总表。在那里您可以找到每个内核的加载和存储效率。如果所有访问都合并，则效率应为 1，否则其小于 1（0.5 表示仅使用一半的加载字节）。

当然，由于这并不能帮助您弄清楚未合并的访问到底在内核中的位置，所以最好的方法仍然是了解合并的工作原理（每个 halfwarp 的地址被收集到 32、64 和 128 字节的访问中，而不是访问的值中）无论如何，该区域内的数据都会被转移），并且分析您的访问模式仍然是最终的方法。

回复收藏 0 原文

~没有更多了~