大数据-31 ZooKeeper Leader 选举与 ZAB 协议原理

本文是大数据系列第 31 篇，深入剖析 ZooKeeper 的 Leader 选举机制和 ZAB（ZooKeeper Atomic Broadcast）协议实现原理。

完整图文版（含截图）：CSDN 原文 | 掘金

ZooKeeper 核心特性回顾

ZooKeeper 提供以下分布式一致性保证：

数据模型采用类似 Unix 文件系统的 ZNode 树形结构，节点默认最多存储 1MB 数据，分为持久节点（PERSISTENT）和临时节点（EPHEMERAL）两种类型，临时节点在会话结束后自动删除。

客户端可以向节点注册 Watcher，当节点数据或子节点列表发生变化时收到通知。Watcher 是一次性触发的，收到通知后需要重新注册。

场景	实现方式
服务注册发现	Dubbo Provider 在 `/dubbo/com.example.Service/providers` 下创建临时节点
配置管理	应用监听 `/config/myapp` 节点，动态感知配置变更
消息队列	生产者创建顺序节点，消费者监听新节点出现
分布式锁	多个客户端竞争创建同一临时节点，成功者获得锁
集群管理	临时节点代表存活节点，节点下线后自动删除

以 5 节点集群为例，说明首次启动时的选举过程：

集群运行过程中 Leader 宕机后的重新选举，优先选举 ZXID（事务 ID）最高的节点作为新 Leader，ZXID 反映了节点持有的最新数据。

ZAB（ZooKeeper Atomic Broadcast）是专为 ZooKeeper 设计的原子广播协议，基于 Paxos 思想优化而来，保证：

所有客户端的写请求都必须经过 Leader 节点，Leader 负责将更新复制到所有 Follower。读请求可以由任意 Follower 直接处理。

阶段一：Proposal（提案）

Leader 为每个写请求分配唯一的 ZXID，将请求封装为事务提案，通过 FIFO 队列依次发送给所有 Follower。

阶段二：ACK（确认）

每个 Follower 接收提案后，先写入本地事务日志，再向 Leader 回复 ACK。Leader 等待超过半数节点（含自身）的 ACK。例如 5 节点集群需要至少 3 个 ACK。

阶段三：Commit（提交）

Leader 在本地提交事务，然后向所有 Follower 广播 Commit 消息，Follower 收到后将提案应用到本地状态机。

与经典二阶段提交的区别：采用多数派而非全员确认，避免单节点故障导致阻塞。

故障影响

ZAB 恢复保证

恢复时间：典型 Leader 重新选举耗时 200~400 毫秒。

ZooKeeper 通过 ZAB 协议的 Leader 选举和原子广播机制实现了企业级分布式协调能力。“过半数节点”的仲裁原则结合 ZXID 排序，在保证强一致性的同时提供了良好的容错能力，是生产级分布式系统协调服务的成熟选择。