当前位置：文江博客话题详情

分布式系统中的数据同步

发布于 2024-12-03 21:19:41 字数 253 浏览 4 评论 0原文

我们有一个基于 Restlet 框架构建的基于 REST 的应用程序，支持 CRUD 操作。它使用本地文件来存储数据。

现在的要求是将此应用程序部署在多个虚拟机上，并且一台虚拟机中的任何更新操作都需要传播到其他虚拟机上运行的其他应用程序实例。

我们解决这个问题的想法是，当给定虚拟机中发生更新操作时，发送多个 POST 消息（到所有其他应用程序）。这里的假设是每个应用程序都有所有其他应用程序的列表/URL。

有更好的方法来解决这个问题吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

清泪尽 2024-12-10 21:19:41

一致性是一个深入的话题，很难做到正确。当同一数据几乎同时发生两个更改时，就会出现麻烦：冲突的更新可能会以一种顺序到达一台服务器，而在另一台服务器上则以另一种顺序到达。这是一个问题，因为两台服务器不再就数据内容达成一致，并且不清楚谁是“正确的”。

简而言之：获取您最喜欢的 RDBMS（例如，mysql 很流行）并连接您的应用程序服务器所谓的三层模型。请务必在事务中执行复杂的更新，这将提供可接受的一致性模型。

长话短说：三层模型非常适合中小型网站/服务。你最终会发现单个数据库成为瓶颈。对于读取流量远大于写入流量的服务，常见的优化是创建单主、多从数据库复制安排，其中所有写入都转到单个主服务器（与非分布式事务保持一致所需），但是更常见的读取可以发送到任何读取从属设备。

对于具有均匀混合读/写流量的服务，放弃正式 SQL 提供的一些便利（以及附带的限制），转而使用最近出现的各种“nosql”数据存储之一，可能会更好。它们的相对优点和对各种问题的适用性本身就是一个深刻的话题。

墨落成白 2024-12-10 21:19:41

目前我可以看到 7 个主要选项。您应该了解更多详细信息并确定设施/权衡是否适合您的目的

在通用 RDBMS 上执行 CRUD 操作。最简单且最一致
在通用 RDBMS 上执行 CRUD 操作，该 RDBMS 运行速度与内存 RDBMS 一样快。例如 Oracle 的 TimesTen 等
在分布式缓存或您自己的自制分布式哈希表上执行 CRUD，这可以保证同步例如 Hazelcast/ehcache 等
使用快速通用状态服务器（如 REDIS/memcached）并执行更新
以同步方式对其进行操作，并在需要时以惰性方式将成功的操作写入数据库。
分布式 REST 服务器，以便单个实体上的 CRUD 操作仅由单个主服务器执行。完成此操作后，可以使用可靠的消息总线或在底层运行并相当快地同步所有更新的分布式数据库（例如 postgres）将有关更改的详细信息传达给其他人。
以最终一致性为目标，并使用像 Cassandra 这样的分布式数据存储，它可以让您目标您需要的一致性
使用分布式共识算法（如 Paxos 或 RAFT）或相同（推荐）的实现（如 Zookeeper 或 etcd），并分别获得您想要的项目的所有权在执行 CRUD 操作之前从每个 REST 服务器进行更改 - 虽然可能有点慢，但 Cassandra 可能会为您提供相同的内容。