什么时候无锁数据结构的性能低于互斥（互斥体）？

发布于 2024-08-08 07:51:05 字数 248 浏览 2 评论 0原文

我在某处读到（不再找到该页面），无锁数据结构“对于某些工作负载”更有效，这似乎意味着有时它们实际上更慢，或者在某些情况下从它们中获得的收益可能为零。对我来说，使用锁定指令的约 100 个周期命中来执行原子操作听起来比进入睡眠状态并等待调度程序唤醒进程要快得多，因此对我来说，在什么情况下使用无锁数据结构并不明显不如老式互斥锁那么好。如果锁在 99% 的时间内可用并且进程不必进入睡眠状态，那么互斥锁是否会更快？假设有合适的无锁数据结构可用，是否有一个好的经验法则可以知道该走哪条路？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

各自安好 2024-08-15 07:51:05

实现无锁数据结构的常见方法是拥有对不可变对象的可变引用，并让任何想要更改该结构的对象获取该引用，生成应用了适当更改的对象的新版本，然后进行 CompareExchange指向新对象的引用。如果 CompareExchange 能工作，那就太好了。如果没有，则放弃新对象，重新获取引用，然后重新开始。

如果生成新对象的成本较低并且争用程度足够低，CompareExchange 通常可以正常工作，则这种方法可以很好地工作。如果存在相当大的争用，并且生成新对象的速度很慢，则 N 个线程同时尝试更新可能需要 N^2 时间才能完成。举一个极端的例子，假设一个 CPU 上运行 100 个线程，一次更新需要 100 毫秒的 CPU 时间（刚好超过一个时间片），并且所有 100 个线程都尝试同时更新一个对象。在前十秒内，每个线程都会在原始对象的基础上生成一个新对象。其中一个线程将成功执行 CompareExchange，而其他线程将全部失败。然后在接下来的 9.9 秒内，99 个线程将生成该对象的新版本，之后其中一个将成功发布其更新，而 98 个将失败。最终结果是，无锁方法将花费 505 秒的 CPU 时间来执行 100 次更新，而锁定系统可以在大约 10 秒内完成这些更新。

回复收藏 0 原文

碍人泪离人颜 2024-08-15 07:51:05

无锁数据结构将通过某种方式使用架构中的原子语义来执行其核心操作。当您执行此操作时，您可以使用计算机的整个内部排除机制来确保数据的正确排序或隔离。互斥体或临界区也执行此操作，但它只对单个标志执行一次。互斥锁或临界区速度慢的地方是锁获取失败（存在争用）。在这种情况下，操作系统还会调用调度程序来挂起线程，直到释放排除对象。

因此，每当您的无锁数据结构在每个核心方法中使用多个原子操作时，当屏蔽关键部分的单个锁可以提供相同的语义并且时，在实践中往往很少有争用，这似乎是合乎逻辑的，对于所讨论的数据结构，那么事实上，使用操作系统提供的锁定机制确实比尝试构建自己的锁定机制更有意义。

回复收藏 0 原文

千鲤 2024-08-15 07:51:05

我不知道如何让它慢，但这肯定会让正确的事情变得更加困难。在许多情况下，两种方法的性能几乎相同（或者当需要 500 皮秒而不是 100 皮秒并不重要时），那么选择最简单的方法 - 通常是lock.

在极少数情况下，额外的性能是关键。如果是的话，我怀疑您最好使用已建立的库中的预滚动模式实现。让无锁代码正常工作（并证明它在所有条件下都能正常工作）通常非常困难。

另请注意，某些环境提供的锁定级别高于操作系统提供的互斥锁；互斥行为，但没有一些开销（例如 .NET 中的 Monitor）。

回复收藏 0 原文

药祭#氼 2024-08-15 07:51:05

我想对这部分答案补充一点：
“互斥锁或临界区速度慢的地方是锁获取失败（存在争用）。在这种情况下，操作系统还会调用调度程序来挂起线程，直到释放排除对象为止。”

似乎不同的操作系统在锁获取失败时可以采取不同的方法。我使用 HP-UX，它有一种更复杂的方法来锁定互斥体。这是它的描述：

...另一方面，改变上下文是一个昂贵的过程。如果等待时间很短，我们宁愿不进行上下文切换。为了平衡这些要求，当我们尝试获取信号量并发现它被锁定时，我们要做的第一件事就是短暂的自旋等待。调用例程 psema_spin_1() 来旋转最多 50,000 个时钟周期以尝试获取锁定。如果我们在 50,000 个周期后未能获得锁，则调用 psema_switch_1() 放弃处理器并让另一个进程接管。

回复收藏 0 原文

七色彩虹 2024-08-15 07:51:05

请记住，互斥锁很可能被实现为一种无锁数据结构，因为它使用一个或几个原子对象来表示其状态。这是一种错误的二分法。

更好的是考虑是否需要允许多个线程等待访问某些操作集或阻塞直到收到信号。每个都需要一个等待线程队列。前者对等待访问同步区域的线程进行排队，而后者对等待信号的线程进行排队。 Java 类 AbstractQueuedSynchronizer< /code>和 AbstractQueuedLongSynchronizer 提供了这样一个队列，特别是CLH 队列，可以在其上构建互斥体、条件和其他基于队列的原语。

如果您的要求倾向于只有一个线程承担一组独占的工作，而其他线程仍然可以自由地继续其他工作，而不是等到它们也可以自己完成相同的工作，那么使用无锁技术是可能的。这样做是否会获得更快的运行时间取决于基准测试，取决于线程争用这些同步控制的频率和数量，以及线程是否有其他工作需要独立执行。

回复收藏 0 原文