Raft 共识算法学习笔记 二:日志复制
文章 Raft 共识算法学习笔记 一:领导人选举 描述了 Raft 算法如何进行领导者选举,本文描述 Raft 共识算法如何进行日志复制。
复制状态机
在 Raft 集群中,每个服务器可以看成是一个复制状态机(Replicated State Machine),如下图。
复制状态机通常基于复制日志(replicated log)实现。每个服务器存储一个包含一系列指令的日志,并且按顺序执行指令。由于日志都包含相同顺序的指令,状态机会按照相同的顺序执行指令,由于状态机是确定的(deterministic),因此状态机会产生相同的结果。
保持这些日志的一致性(consistent)正是共识(consensus)算法的工作。
图:复制状态机工作过程:1. 客户端请求;2. 共识模块执行共识算法进行日志复制,将日志复制至集群内各个节点;3. 日志应用到状态机;4. 服务端返回请求结果
在 Raft 中,指令以日志形式进行复制。集群内只有领导者才能接收客户端请求,其他所有节点都接收来自领导者的复制日志,以达到所有节点日志的一致,并最终达到状态的一致。
Raft 日志
上面我们提到在 Raft 中,指令以日志形式存在。日志由日志项(log entry)构成。日志项包含日志项索引、任期编号以及指令:
- 指令:客户端请求状态机需要执行的命令,例如指令
x <- 3
表示将x
变量赋值为3
- 日志项索引:日志项对应的索引值,是一个连续的、单调递增的整型号码
- 任期编号:创建这条日志项的领导者的任期编号
在上图可以看到,在一届领导者任期内,往往有多个日志项,例如,任期 1 有三个日志项,其日志项索引值分别为 1,2,3。
在 Raft 论文 In Search of an Understandable Consensus Algorithm (Extended Version) 中,多次提到 commit
和 apply
两词。其中,commit
(提交)或 committed
(已提交)针对的是日志,即日志项被成功复制到集群中大多数节点后,日志项处于 committed
状态,例如上图中索引 1 - 7 的日志项均处于 committed
状态;apply
(应用)或 applied
(已应用)针对的是状态机,即节点将日志项应用到状态机,真正改变节点变量的值。
关于日志复制的过程,下面会进行更详细的描述。
日志复制
领导者接收到客户端请求后,接下来会进行日志复制的操作,过程如下图所示:
- 客户端发送请求,领导者接收到客户端请求,根据请求中的指令,创建一个新的日志项,并附加(append)到领导者日志中
- 领导者通过日志复制 RPC(AppendEntries RPC),将新的日志项复制至其他节点
- 当领导者将日志项成功复制至集群大多数节点的时候,日志项处于
committed
状态,领导者可将这个日志项应用(apply
)到自己的状态机中 - 领导者将客户端请求结果返回给客户端
- 当其他节点,即跟随者,接收到领导者的心跳消息,或新的日志复制消息(该消息均会附上领导者最大已提交日志项索引),如果跟随者发现领导者已提交某日志项,而自己还没将该日志项应用至状态机,那么,跟随者就将该日志项应用至自己的状态机中
从上面日志复制的过程可以看到,日志复制过程有点类似我们熟悉的二阶段提交(2PC)过程。与 2PC 不同的是,领导者接收到集群内大多数节点响应后,领导者就可以直接返回结果给客户端。这个优化,降低了客户端请求的延迟,将二阶段提交优化为一阶段提交。
为什么可以做这样的优化呢?就像上面所说的,由于领导者与跟随者之间的 RPC 通信 AppendEntries RPC,包括日志复制 RPC 和心跳 RPC,都包含了领导者最大已提交日志项索引,通过此日志项索引,跟随者可以在知道领导者已提交日志项,然后将该日志项按顺序应用至自己的状态机中,达到最终一致性。
日志一致性
Raft 日志具体如下特性:(本文不作具体证明,有兴趣的可以参考 Raft 论文 $5.3 部分,读者可只记住结论即可。)
- 如果不同日志中的两个日志项具有相同的索引值和任期编号,那么这两个日志项具有相同的指令
- 如果不同日志中的两个日志项具有相同的索引值和任期编号,那么这两个日志项之前的所有日志项也全部相同
在 Raft 算法中,通过领导者强制跟随者复制自己的日志项,来处理不一致的日志。
具体包括两个步骤:
- 领导者通过日志复制 RPC 的一致性检查,找到跟随者与自己相同日志项的最大索引值。即,在该索引值之前的日志,领导者和跟随者是一致的,之后的日志,就不一致了
- 领导者强制将跟随者该索引值之后的所有日志项删除,并将领导者该索引值之后的所有日志项同步至跟随者,以实现日志的一致
因此,处理领导者与跟随者日志不一致的关键是找出上述的最大索引值。
Raft 引入两个变量,来方便找出这一最大索引值:
prevLogIndex
:表示领导者当前需要复制的日志项,前面那一个日志项的索引值。例如,下图,如果领导者需要将索引值为 8 的日志项复制到跟随者,那么prevLogIndex
为 7prevLogTerm
:表示领导者当前需要复制的日志项,前面一个日志项的任期编号。例如,下图,如果领导者需要将索引值为 8 的日志项复制到跟随者,那么prevLogTerm
为 4
下面以上图为例描述领导者如何通过日志复制 RPC 的一致性检查,找到跟随者与自己相同日志项的最大索引值:
- 领导者通过日志复制 RPC 消息,发送当前自己最新日志项给跟随者,该消息的
prevLogIndex
为 7,prevLogTerm
为 4 - 由于跟随者在其日志中,无法找到索引值为 7,任期编号为 4 的日志项,即跟随者的日志和领导者的不一致,故跟随者会拒绝接收新的日志项,返回失败
- 这时,领导者递减
prevLogIndex
值为 6,prevLogTerm
变为 3,重新发送日志复制 RPC 消息 - 此时,跟随者在其日志中,找到了索引值为 6,任期编号为 3 的日志项,故跟随者返回成功
- 领导者收到跟随者成功返回后,知道在索引值为 6 的位置之前的所有日志项,均与自己的相同。于是通过日志复制 RPC ,复制并覆盖索引值为 6 之后的日志项,以达到跟随者的日志与领导者的日志一致
领导者通过日志复制 RPC 一致性检查,找到跟随者与自己相同日志项的最大索引值,然后复制并覆盖该索引值之后的日志项,以实现集群内各个节点日志的一致。
需要指出的是,日志复制过程中,只有跟随者的日志项会被领导者的日志覆盖更新,领导者的日志从不会被覆盖或删除。
参考资料
- https://raft.github.io/
- https://time.geekbang.org/column/article/205784
- https://raft.github.io/raft.pdf
- http://thesecretlivesofdata.com/raft/#replication
- https://github.com/baidu/braft/blob/master/docs/cn/raft_protocol.md
- https://andyyoung01.github.io/2017/04/24/Raft%E7%AE%97%E6%B3%95%E7%AE%80%E4%BB%8B/
- https://github.com/maemual/raft-zh_cn/blob/master/raft-zh_cn.md
- https://www.cnblogs.com/xybaby/p/10124083.html
- https://raft.github.io/slides/craftconf2014.pdf
- https://sunyunqiang.com/blog/raft_protocol/