高性能计算术语：GF/s 是什么？

发布于 2024-12-09 07:53:22 字数 341 浏览 0 评论 0原文

在我的系统中，全局内存带宽略高于 60 GB/s。这非常好，直到您认为该带宽必须服务 128 个硬件线程——每个线程都可以提供大量数据浮点运算。由于 32 位浮点值占用四 (4) 个字节，全局内存带宽有限的应用在此硬件上只能提供大约 15 GF/s ——或者仅占可用性能的一小部分。

问题：GF/s 意味着每秒千兆次失败？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

天荒地未老 2024-12-16 07:53:22

每秒千兆次失败就是这样！

回复收藏 0 原文

帅气尐潴 2024-12-16 07:53:22

GF/s 或 GFLOPS 是 GigaFlops 或每秒 10^9 浮点运算。（GF/s 是 GigaFLOP/S = GigaFLOPS 的缩写，请参见此处“千兆浮点运算 (GF/s) = 10^9 浮点运算”或此处“每秒千兆次浮点运算 (GF/s)”）。

我很清楚 GF/s 不是 GFLOPS/s（不是加速度）。

您应该记住，CPU 和 GPU 上的浮点操作通常以不同的方式进行计数。对于大多数CPU来说，通常会计算64位浮点格式运算。对于 GPU - 32 位，因为 GPU 在 32 位浮点上有更多的性能。

哪些类型的操作被计算在内？加法、减法和乘法是。加载和存储数据不计算在内。但是加载和存储数据对于从内存获取数据/向内存获取数据是必要的，有时它会限制实际应用中实现的 FLOPS（您引用的文章提到了这种情况，“内存带宽有限的应用程序”，当 CPU/GPU 可以提供大量 FLOPS 时）但内存无法如此快地读取所需数据）

某些芯片或计算机的 FLOPS 是如何计算的？有两种不同的指标，一种是该芯片 FLOPS 的理论上限。它是通过将核心数量、芯片频率和每个 CPU 时钟周期的浮点运算相乘来计算的（Core2 为 4，Sandy Bridge CPU 为 8）。

其他指标类似于现实世界的失败次数，通过运行 LINPACK 基准测试（求解巨大的线性方程组）来计算。该基准测试大量使用矩阵-矩阵乘法，并且是现实世界失败的近似值。超级计算机 Top500 是通过 LINPACK 基准的并行版本 HPL 来衡量的。对于单个 CPU，linpack 的理论失败率高达 90-95%，对于大型集群，该范围在 50-85% 之间。

回复收藏 0 原文