多核应用中的性能增益问题

发布于 2024-09-13 14:34:08 字数 147 浏览 12 评论 0原文

我有一个用 C 编写的串行（非并行）应用程序。我已使用英特尔线程构建模块修改并重新编写了它。当我在四核 AMD Phenom II 机器上运行这个并行版本时，我获得了超过 4 倍的性能增益，这与阿姆达尔定律相冲突。谁能告诉我发生这种情况的原因吗？

谢谢，拉凯什。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

携君以终年 2024-09-20 14:34:08

如果重写该程序，可以提高其效率。阿姆达尔定律仅限制了并行性带来的加速量，而不是通过改进代码可以使代码加快多少。

您可能会意识到拥有 4 倍缓存的效果，因为现在您可以使用所有四个进程。或者与计算机上运行的其他进程的争用可能会减少。或者您不小心修复了错误预测的分支。

TL/DR：它发生了。

回复收藏 0 原文

屌丝范 2024-09-20 14:34:08

它被称为“超线性加速”，发生的原因有多种，但最常见的根本原因可能是缓存行为。通常，当发生超线性加速时，这表明您可以使顺序版本更加高效。

例如，假设您有一个处理器，其中一些核心共享 L2 缓存（当今的常见架构），并假设您的算法对大型数据结构进行多次遍历。如果按顺序执行遍历，则每次遍历都必须将数据重新拉入 L2 缓存，而如果并行执行遍历，则只要遍历运行在步骤（此处失步是不可预测性能的一个很好的来源）。为了使顺序版本更有效，您可以交错遍历，从而提高局部性。

回复收藏 0 原文