当前位置：文江博客话题详情

共享内存与消息传递如何处理大型数据结构？

发布于 2024-08-12 02:19:11 字数 437 浏览 4 评论 0原文

在研究 Go 和 Erlang 的并发方法时，我注意到它们都依赖于消息传递。

这种方法显然减少了对复杂锁的需求，因为没有共享状态。

但是，请考虑许多客户端希望对内存中的单个大型数据结构（例如后缀数组）进行并行只读访问的情况。

我的问题：

使用共享状态是否会比消息传递更快并且使用更少的内存，因为锁大多是不必要的，因为数据是只读的，并且只需要存在于单个位置？
在消息传递上下文中如何解决这个问题？是否存在可以访问数据结构的单个进程，并且客户端只需要顺序地从中请求数据？或者，如果可能的话，是否会将数据分块以创建多个保存块的进程？
考虑到现代 CPU 的架构和，这两种解决方案之间是否有很大差异——即共享内存可以由多个内核并行读取——这意味着不存在硬件瓶颈，否则这两种实现的性能大致相同？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

在你怀里撒娇 2024-08-19 02:19:11

需要意识到的一件事是，Erlang 并发模型并没有真正指定消息中的数据必须在进程之间复制，它指出发送消息是唯一的通信方式，并且没有共享状态。由于所有数据都是不可变的，这是最基本的，因此实现很可能不会复制数据，而只是发送对其的引用。或者可以结合使用这两种方法。与往常一样，不存在最佳解决方案，并且在选择如何实现时需要进行权衡。

BEAM 使用复制，但发送引用的大型二进制文件除外。

回复收藏 0 原文

孤檠 2024-08-19 02:19:11

是的，在这种情况下共享状态可能会更快。但前提是您可以放弃锁，并且只有在绝对只读的情况下才可行。如果它是“大部分只读”，那么您需要一个锁（除非您设法编写无锁结构，请注意它们比锁更棘手），然后您将很难使其执行与良好的消息传递架构一样快。
是的，您可以编写一个“服务器进程”来共享它。对于真正的轻量级进程，它并不比编写一个小型 API 来访问数据更繁重。像“拥有”数据的对象（在 OOP 意义上）一样思考。将数据分割成块以增强并行性（在数据库圈中称为“分片”）在大型情况下（或者数据存储在慢速存储上）很有帮助。
即使 NUMA 逐渐成为主流，每个 NUMA 单元仍然拥有越来越多的核心。一个很大的区别是消息只能在两个内核之间传递，而锁必须从所有内核上的缓存中刷新，从而限制了单元间总线延迟（甚至比 RAM 访问更慢）。如果有什么不同的话，那就是共享状态/锁变得越来越不可行。

简而言之......习惯消息传递和服务器进程，它很流行。

编辑：重新审视这个答案，我想添加在 Go 文档中找到的一个短语：

通过通信来共享内存，而不是通过共享内存来通信。

这个想法是：当线程之间共享一块内存时，避免并发访问的典型方法是使用锁进行仲裁。 Go风格是通过引用传递消息，线程只有在收到消息时才访问内存。它依赖于程序员纪律的某种程度；但会产生看起来非常干净的代码，可以轻松校对，因此调试起来相对容易。

优点是您不必在每条消息上复制大数据块，也不必像某些锁实现那样有效地刷新缓存。现在说这种风格是否会带来更高性能的设计还为时过早。（特别是因为当前的 Go 运行时在线程调度方面有些幼稚）

Yes, shared state could be faster in this case. But only if you can forgo the locks, and this is only doable if it's absolutely read-only. if it's 'mostly read-only' then you need a lock (unless you manage to write lock-free structures, be warned that they're even trickier than locks), and then you'd be hard-pressed to make it perform as fast as a good message-passing architecture.
Yes, you could write a 'server process' to share it. With really lightweight processes, it's no more heavy than writing a small API to access the data. Think like an object (in OOP sense) that 'owns' the data. Splitting the data in chunks to enhance parallelism (called 'sharding' in DB circles) helps in big cases (or if the data is on slow storage).
Even if NUMA is getting mainstream, you still have more and more cores per NUMA cell. And a big difference is that a message can be passed between just two cores, while a lock has to be flushed from cache on ALL cores, limiting it to the inter-cell bus latency (even slower than RAM access). If anything, shared-state/locks is getting more and more unfeasible.

in short.... get used to message passing and server processes, it's all the rage.

Edit: revisiting this answer, I want to add about a phrase found on Go's documentation:

share memory by communicating, don't communicate by sharing memory.

the idea is: when you have a block of memory shared between threads, the typical way to avoid concurrent access is to use a lock to arbitrate. The Go style is to pass a message with the reference, a thread only accesses the memory when receiving the message. It relies on some measure of programmer discipline; but results in very clean-looking code that can be easily proofread, so it's relatively easy to debug.

the advantage is that you don't have to copy big blocks of data on every message, and don't have to effectively flush down caches as on some lock implementations. It's still somewhat early to say if the style leads to higher performance designs or not. (specially since current Go runtime is somewhat naive on thread scheduling)

回复收藏 0 原文

不可一世的女人 2024-08-19 02:19:11

在 Erlang 中，所有值都是不可变的 - 因此在进程之间发送消息时无需复制消息，因为它无论如何都无法修改。

在 Go 中，消息传递是按照约定的 - 没有什么可以阻止您通过通道向某人发送指针，然后修改指向的数据，只是约定，所以再次不需要复制消息。

回复收藏 0 原文

转瞬即逝 2024-08-19 02:19:11

大多数现代处理器都使用 MESI 协议的变体。由于共享状态，在不同线程之间传递只读数据非常便宜。不过，修改后的共享数据非常昂贵，因为存储此缓存行的所有其他缓存都必须使其无效。

因此，如果您有只读数据，那么在线程之间共享它而不是通过消息进行复制是非常便宜的。如果您有主要是读取的数据，则在线程之间共享的成本可能会很高，部分原因是需要同步访问，部分原因是写入破坏了共享数据的缓存友好行为。

不可变数据结构在这里可能是有益的。您无需更改实际的数据结构，只需创建一个共享大部分旧数据的新数据结构，但更改了您需要更改的内容。共享它的单个版本很便宜，因为所有数据都是不可变的，但您仍然可以有效地更新到新版本。

回复收藏 0 原文

往事随风而去 2024-08-19 02:19:11

请注意，您的问题在技术上是没有意义的，因为消息传递可以使用共享状态，因此我假设您的意思是通过深度复制来传递消息以避免共享状态（就像 Erlang 目前所做的那样）。

使用共享状态是否会比消息传递更快并且使用更少的内存，因为锁大多是不必要的，因为数据是只读的，并且只需要存在于单个位置？

使用共享状态会快很多。

在消息传递上下文中如何解决这个问题？是否存在可以访问数据结构的单个进程，并且客户端只需要顺序地从中请求数据？或者，如果可能的话，是否会将数据分块以创建多个保存块的进程？

可以使用任何一种方法。

考虑到现代 CPU 的架构和内存，这两种解决方案之间是否有很大差异——即共享内存可以由多个内核并行读取——这意味着不存在硬件瓶颈，否则这两种实现的性能大致相同？

复制对缓存不友好，因此会破坏多核上的可扩展性，因为它会加剧对主内存等共享资源的争用。

最终，Erlang 风格的消息传递是为并发编程而设计的，而您关于吞吐量性能的问题实际上是针对并行编程的。这是两个完全不同的主题，在实践中它们之间的重叠很小。具体来说，在并发编程环境中，延迟通常与吞吐量一样重要，而 Erlang 风格的消息传递是实现所需延迟配置文件（即始终保持低延迟）的好方法。那么，共享内存的问题不在于读取器和写入器之间的同步，而在于低延迟内存管理。

回复收藏 0 原文

季末如歌 2024-08-19 02:19:11

什么是大型数据结构？

一个人大另一个人小。

上周我和两个人交谈 - 一个人正在制作嵌入式设备，他用了这个词
“大” - 我问他这是什么意思 - 他说超过 256 KB - 在同一周晚些时候
那家伙正在谈论媒体分发 - 他使用了“大”这个词，我问他什么
意思是 - 他想了一下，说“不适合一台机器”，比如 20-100 TBytes

在 Erlang 术语中，“大”可能意味着“不适合 RAM” - 所以使用 4 GB 的 RAM
数据结构>> 100 MB 可能被认为很大 - 复制 500 MB 的数据结构
可能是个问题。在 Erlang 中复制小型数据结构（例如小于 10 MB）从来都不是问题。

真正大型的数据结构（即无法容纳在一台机器上的数据结构）必须是
在多台机器上复制并“条带化”。

所以我猜你有以下想法：

小型数据结构没有问题 - 因为它们很小，数据处理时间很短
快，复制快等等（只是因为它们很小）

大数据结构是一个问题 - 因为它们不适合一台机器 - 所以复制是必不可少的。

回复收藏 0 原文

清引 2024-08-19 02:19:11

这里没有介绍的一种解决方案是主从复制。如果您有一个大型数据结构，您可以将对其所做的更改复制到对其副本执行更新的所有从属服务器。

如果想要扩展到多台机器，而这些机器甚至无法在没有非常人为设置的情况下共享内存（从远程计算机内存读取/写入的块设备的 mmap？），那么这是特别有趣的。

它的一种变体是有一个事务管理器，可以很好地要求更新复制的数据结构，并且它将确保它同时服务于一个且唯一的更新请求。这更多的是用于 mnesia 表数据的主主复制的 mnesia 模型，它符合“大型数据结构”的资格。

回复收藏 0 原文

心凉 2024-08-19 02:19:11

目前的问题确实是锁定和高速缓存行一致性可能与复制更简单的数据结构（例如几百字节）一样昂贵。

大多数时候，试图消除大部分锁定的巧妙编写的新多线程算法总是会更快——并且对于现代无锁数据结构来说更快。特别是当您拥有设计良好的缓存系统（例如 Sun 的 Niagara 芯片级多线程）时。

如果您的系统/问题不容易分解为几个简单的数据访问，那么您就有问题了。而且并不是所有的问题都可以通过消息传递来解决。这就是为什么仍然有一些基于 Itanium 的超级计算机在售，因为它们拥有 TB 的共享 RAM，并且在同一共享内存上运行多达 128 个 CPU。它们比具有相同 CPU 能力的主流 x86 集群贵一个数量级，但您不需要分解数据。

到目前为止没有提到的另一个原因是，当使用多线程时，程序可以变得更容易编写和维护。消息传递和无共享方法使其更加易于维护。

举个例子，Erlang 的设计从来就不是为了让事情变得更快，而是使用大量线程来构建复杂的数据和事件流。

我想这是设计的要点之一。在谷歌的网络世界中，你通常不关心性能——只要它可以在云端并行运行即可。理想情况下，通过消息传递，您可以添加更多计算机，而无需更改源代码。

回复收藏 0 原文