分配给 GPU 中的 sqrt 的 FLOPS 以衡量性能和全局效率

发布于 2024-11-05 20:30:08 字数 238 浏览 10 评论 0原文

在 GPU 实现中，我们需要根据 GLOPS 来估计其性能。代码非常基本，但我的问题是我应该为“sqrt”或“mad”操作提供多少 FLOPS，无论是 1 还是更多。

此外，如果这些操作为 1 FLOP，我的代码将获得 50 GFLOPS，而该 GPU 的理论最大值为 500GFLOPS。如果我用百分比来表达，我会得到 10%。就加速而言，我得到了 100 倍。所以我觉得很好，但是10%的收益率似乎有点低，你觉得怎么样？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

凹づ凸ル 2024-11-12 20:30:08

正确的答案可能是“视情况而定”。

为了纯粹比较不同平台上运行的代码之间的性能，我通常将超越、sqrt、mads 算作一项操作。在这种情况下，关键性能指标是代码运行所需的时间。几乎不可能以任何其他方式进行比较 - 您将如何比较需要 25 个周期才能退出的超越硬件指令的“FLOP”计数与数学库生成的 fmad 指令节（也需要 25 个周期）周期来完成？在这种情况下，对指令或 FLOP 进行计数变得毫无意义，尽管表面上的 FLOP 计数不同，但它们都以相同数量的时钟周期执行所需的操作。

另一方面，对于给定硬件上的一段代码的分析和性能调整，FLOP 计数可能是一个有用的指标。在 GPU 中，通常会查看 FLOP 或 IOP 计数以及内存带宽利用率来确定给定代码的性能瓶颈所在。掌握这些数字可能会为您指明有用的优化方向。

回复收藏 0 原文

~没有更多了~