消息时序与一致性为何这么难？

发布于 2025-02-23 22:52:39 字数 6199 浏览 0 评论 0 收藏 0

分布式系统中，很多业务场景都需要考虑消息投递的时序，例如：

（1）单聊消息投递，保证发送方发送顺序与接收方展现顺序一致

（2）群聊消息投递，保证所有接收方展现顺序一致

（3）充值支付消息，保证同一个用户发起的请求在服务端执行序列一致

消息时序是分布式系统架构设计中非常难的问题，ta 为什么难 ，有什么常见 优化实践 ，是本文要讨论的问题。

一、为什么时序难以保证，消息一致性难？

为什么分布式环境下，消息的时序难以保证，这边简要分析了几点原因：

【时钟不一致】

分布式环境下消息时序
分布式环境下，有多个客户端、有 web 集群、service 集群、db 集群，他们都分布在不同的机器上，机器之间都是使用的本地时钟，而没有一个所谓的“全局时钟”，所以 不能用“本地时间”来完全决定消息的时序 。

【多客户端（发送方）】

多客户端时序

多服务器不能用“本地时间”进行比较，假设只有一个接收方，能否用接收方本地时间表示时序呢？遗憾的是，由于多个客户端的存在， 即使是一台服务器的本地时间，也无法表示“绝对时序” 。

如上图，绝对时序上，APP1 先发出 msg1，APP2 后发出 msg2，都发往服务器 web1，网络传输是不能保证 msg1 一定先于 msg2 到达的，所以即使以一台服务器 web1 的时间为准，也不能精准描述 msg1 与 msg2 的绝对时序。

【服务集群（多接收方）】
多接收方时序

多发送方不能保证时序，假设只有一个发送方，能否用发送方的本地时间表示时序呢？遗憾的是，由于多个接收方的存在， 无法用发送方的本地时间，表示“绝对时序” 。

如上图，绝对时序上，web1 先发出 msg1，后发出 msg2，由于网络传输及多接收方的存在，无法保证 msg1 先被接收到先被处理，故也无法保证 msg1 与 msg2 的处理时序。

【网络传输与多线程】

多发送方与多接收方都难以保证绝对时序，假设只有单一的发送方与单一的接收方，能否保证消息的绝对时序呢？结论是悲观的，由于网络传输与多线程的存在，仍然不行。

如上图，web1 先发出 msg1，后发出 msg2，即使 msg1 先到达（网络传输其实还不能保证 msg1 先到达），由于多线程的存在，也不能保证 msg1 先被处理完。

【怎么保证绝对时序】

通过上面的分析，假设只有一个发送方，一个接收方，上下游连接只有一条连接池，通过阻塞的方式通讯，难道不能保证先发出的消息 msg1 先处理么？

回答：可以，但 吞吐量会非常低 ，而且单发送方单接收方单连接池的假设不太成立，高并发高可用的架构 不会允许这样的设计出现 。

二、优化实践

【以客户端或者服务端的时序为准】

多客户端、多服务端导致“时序”的标准难以界定，需要一个标尺来衡量时序的先后顺序，可以根据业务场景，以客户端或者服务端的时间为准，例如：

（1） 邮件展示顺序 ，其实是以客户端发送时间为准的，潜台词是，发送方只要将邮件协议里的时间调整为 1970 年或者 2970 年，就可以在接收方收到邮件后一直“置顶”或者“置底”

（2） 秒杀活动时间判断 ，肯定得以服务器的时间为准，不可能让客户端修改本地时间，就能够提前秒杀

【服务端能够生成单调递增的 id】

这个是毋庸置疑的，不展开讨论，例如利用单点写 db 的 seq/auto_inc_id 肯定能生成单调递增的 id，只是说性能及扩展性会成为潜在瓶颈。对于严格时序的业务场景，可以利用服务器的单调递增 id 来保证时序。

【大部分业务能接受误差不大的趋势递增 id】

消息发送、帖子发布时间、甚至秒杀时间都没有这么精准时序的要求：

（1）同 1s 内发布的聊天消息时序乱了

（2）同 1s 内发布的帖子排序不对

（3）用 1s 内发起的秒杀，由于服务器多台之间时间有误差，落到 A 服务器的秒杀成功了，落到 B 服务器的秒杀还没开始，业务上也是可以接受的（用户感知不到）

所以，大部分业务，长时间趋势递增的时序就能够满足业务需求，非常短时间的时序误差一定程度上能够接受。

关于绝对递增 id，趋势递增 id 的生成架构，详见文章《细聊分布式 ID 生成方法》，此处不展开。

【利用单点序列化，可以保证多机相同时序】

数据为了保证高可用，需要做到进行数据冗余， 同一份数据存储在多个地方，怎么保证这些数据的修改消息是一致的呢？ 利用的就是“单点序列化”：

（1）先在一台机器上序列化操作

（2）再将操作序列分发到所有的机器，以保证多机的操作序列是一致的，最终数据是一致的

典型场景一：数据库主从同步

数据库的主从架构，上游分别发起了 op1,op2,op3 三个操作，主库 master 来序列化所有的 SQL 写操作 op3,op1,op2，然后把相同的序列发送给从库 slave 执行，以保证所有数据库数据的一致性，就是利用“单点序列化”这个思路。

典型场景二：GFS 中文件的一致性