缓存一致性有什么意义？

发布于 2024-09-09 04:42:05 字数 210 浏览 13 评论 0原文

在像 x86 这样提供缓存一致性的 CPU 上，从实际角度来看这有何用处？据我所知，这个想法是让一个核心上完成的内存更新在所有其他核心上立即可见。这是一个有用的属性。但是，如果不是用汇编语言编写，则不能过分依赖它，因为编译器可以将变量赋值存储在寄存器中，并且永远不会将它们写入内存。这意味着仍然必须采取明确的步骤来确保其他线程中完成的操作在当前线程中可见。那么，从实际的角度来看，缓存一致性到底实现了什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

淡墨 2024-09-16 04:42:05

简而言之，非缓存一致性系统非常难以编程，特别是如果您想保持效率 - 这也是当今大多数 NUMA 系统都是缓存一致性的主要原因。

如果缓存不一致，则“显式步骤”必须强制执行一致性 - 显式步骤通常是诸如临界区/互斥体之类的东西（例如，C/C++ 中的 volatile 很少足够）。对于互斥体等服务来说，仅跟踪所有缓存中发生变化且需要更新的内存是非常困难的，即使不是不可能，它也可能必须更新所有内存，也就是说，如果它甚至可以跟踪哪些核心的缓存中有哪些内存片段。

据推测，硬件可以更好、更高效地跟踪已更改的内存地址/范围，并保持它们同步。

并且，想象一个进程在核心 1 上运行并被抢占。当它再次被调度时，它被调度到核心 2 上。

如果缓存不一致，这将是非常致命的，否则核心 1 的缓存中可能会有进程数据的残留，而核心 2 中不存在这些数据缓存。不过，对于以这种方式工作的系统，操作系统必须在调度线程时强制执行缓存一致性 - 这可能是“更新所有核心之间缓存中的所有内存”操作，或者它可能可以通过以下方式跟踪脏页：在 MMU 的帮助下，仅同步已更改的内存页面 - 同样，硬件可能以更细粒度和更有效的方式保持缓存的一致性。

回复收藏 0 原文

岁月静好 2024-09-16 04:42:05

其他作者的精彩回应并未涵盖一些细微差别。

首先，考虑一下 CPU 不是逐字节处理内存，而是处理缓存行。一行可能有 64 个字节。现在，如果我在位置 P 分配一块 2 字节的内存，另一个 CPU 在位置 P + 8 分配一块 8 字节的内存，并且 P 和 P + 8 都位于同一缓存行上，则观察到没有缓存一致性两个 CPU 无法同时更新 P 和 P + 8，而不破坏彼此的更改！因为每个 CPU 都会在高速缓存行上执行读取-修改-写入操作，因此它们可能都会写出不包含其他 CPU 更改的行的副本！最后一位作家将获胜，并且您对记忆的修改之一将“消失”！

另一件要记住的事情是连贯性和一致性之间的区别。因为即使是 x86 派生的 CPU 也使用存储缓冲区，因此无法保证已完成的指令会以其他 CPU 可以看到这些修改的方式修改内存，即使编译器已决定将值写回到内存（也许是因为易失性？）。相反，模组可能会存放在商店缓冲区中。几乎所有常用的 CPU 都是高速缓存一致性的，但很少有 CPU 具有像 x86 那样宽容的一致性模型。例如，查看 http://www.cs。 nmsu.edu/~pfeiffer/classes/573/notes/consistency.html 有关此主题的更多信息。

希望这会有所帮助，顺便说一句，我在 Corensic 工作，这家公司正在构建一个并发调试器，您可能想看看。当有关并发性、连贯性和一致性的假设被证明毫无根据时，它有助于收拾残局:)

回复收藏 0 原文

‘画卷フ 2024-09-16 04:42:05

想象一下您这样做：

lock(); //some synchronization primitive e.g. a semaphore/mutex
globalint = somevalue;
unlock();

如果没有缓存一致性，则最后一个 unlock() 必须确保 globalint 现在在任何地方都可见，而缓存一致性就是您所需要做的一切就是将其写入内存并让硬件发挥作用。软件解决方案将跟踪哪些内存存在于哪些缓存中、哪些核心上，并以某种方式确保它们自动同步。

如果您能找到一种软件解决方案来跟踪缓存中存在的所有需要保持同步的内存块，并且比当前的硬件解决方案更高效，那么您将赢得奖项。

Imagine you do this:

lock(); //some synchronization primitive e.g. a semaphore/mutex
globalint = somevalue;
unlock();

If there were no cache coherence, that last unlock() would have to assure that globalint are now visible everywhere, with cache coherance all you need to do is to write it to memory and let the hardware do the magic. A software solution would have keep tack of which memory exists in which caches, on which cores, and somehow make sure they're atomically in sync.

You'd win an award if you can find a software solution that keeps track of all the pieces of memory that exist in the caches that needs to be keept in sync, that's more efficient than a current hardware solution.

回复收藏 0 原文