随着CPU数量的增加，原子操作是否会变得更慢？

发布于 2024-08-08 07:50:38 字数 209 浏览 2 评论 0原文

x86 和其他体系结构提供特殊的原子指令（lock、cmpxchg 等），允许您编写“无锁”数据结构。但随着越来越多的核心被添加，似乎这些指令实际上必须在幕后完成的工作将会增加（至少是为了保持缓存一致性？）。如果今天的原子添加在双核系统上需要约 100 个周期，那么在未来的 80 多个核心机器上是否需要更长的时间？如果您编写的代码是为了持久，那么使用锁实际上可能是一个更好的主意，即使它们现在速度较慢？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小镇女孩 2024-08-15 07:50:38

你是对的，一旦计数开始高于几十个，拓扑约束就会以某种方式增加内核之间的通信延迟。我真的不知道 x86 公司处理这种扩展的意图是什么。

但锁是通过原子操作来实现的。因此，尝试切换到它们并不能真正获胜，除非它们以比您自己的手动原子操作尝试更具可扩展性的方式实现。我认为，一般来说，对于单个令牌之类的争用，原子原语始终是最快的方法，无论您有多少个核心。

正如克雷很久以前就发现的那样，天下没有免费的午餐。在高级软件设计中，您尝试尽可能不频繁地使用潜在有争议的资源，这始终会在大规模并行应用程序中带来最大的回报。这意味着获取锁后要做尽可能多的工作，但也要尽可能快。在极端情况下，这可能意味着在成功获取锁的假设下预先计算您的工作，尝试抓住它，并在成功时尽快完成，否则丢弃您的工作并在失败时重试。

回复收藏 0 原文

挽心 2024-08-15 07:50:38

对于标题中提出的问题，简短的回答是“是”，详细的回答是“很复杂”。

至于锁是否更好，答案是否定的。在内部，锁必须至少在总线上推送同样多（如果不是更多）的流量。这样想，如果处理器只有一个原子操作，即原子比较和交换，您可以使用它来实现锁和原子增量。在总线协议级别，只使用了几个原语。锁并不比原子操作慢，因为它们正在做不同的事情，它们更慢，因为它们做更多相同的事情（从一致性的角度来看）。因此，随着原子操作变慢，锁也会相应变慢。

话虽如此，关于这个主题的论文有很多很多，而且具体情况也很复杂。我不会担心您的代码将如何在具有不可预测的性能特征的 80 核 CPU 上扩展（因为我们不知道它们将如何设计）。它们要么像我们当前的 CPU 一样运行，并且您的代码将正常运行，要么它们不会，并且您现在猜测的任何内容都将被证明是错误的。在大多数情况下，最终会发现代码对性能并不敏感，所以这并不重要，但如果确实如此，那么当您了解架构和性能特征时，适当的做法就是在将来修复它您的目标处理器。

回复收藏 0 原文