Redis的哨兵故障转移原理是什么

什么是哨兵?

哨兵(Sentinel)是 redis 的高可用性解决方案,前面我们讲的主从复制它是高可用的基础,但是单纯的主从复制需要人工介入才能完成故障转移,哨兵可以解决这个问题,在主从复制情况下,当主节点发生故障时,哨兵可以自动的发现故障并且完成故障转移,实现真正的 redis 高可用。在哨兵集群中,哨兵会监视所有的 redis 服务器和其他 sentinel 节点状态,及时发现故障完成转移,从而保证 redis 的高可用。

哨兵群集的搭建

尽管哨兵本质上也是一个 Redis 服务,但它提供了与普通 Redis 服务不同的功能。哨兵是一个分布式架构,因为你要保证 redis 高可用,首先需要保证自己高可用,所以如果我们需要搭建哨兵的话,最少需要部署三个实例,最好是奇数个,因为在后续的故障转移中会涉及到投票。

哨兵的配置文件我们可以在 redis 的 GitHub 项目下下载,在项目下有一个叫做 sentinel.conf 的文件,可以使用它作为我们哨兵的配置模板,当然你也可以使用 redis.conf 配置文件,只需要添加哨兵相关配置就好了。

Redis哨兵故障转移原理详解

哨兵相关的配置项不多,主要有以下几个配置项:

// 端口号,默认是 redis 实例+20000,所以我们沿用这个规则就好了 port 26379 // 是否守护进程运行 daemonize yes // 日志存放的位置,这个非常重要,通过日志可以查看故障转移的过程 logfile "
26379.log"
// 监视一个名为 mymaster(自定义) 的 redis 主服务器, 这个主服务器的 IP 地址为 127.0.0.1 , 端口号为 6379 , // 最后面的 2 代表着至少有两个哨兵认为主服务器出现故障才会进行故障转移,否则认定主服务未失效 sentinel monitor mymaster 127.0.0.1 6379 2 // 哨兵判断服务器失效的响应时间,超过这个时间未接收到服务器的回应,就认为该服务器失效了 sentinel down-after-milliseconds mymaster 30000 // 完成故障转移之后,最多多少个从服务器可以同时发起数据复制,数字越小,说明完成全部从服务数据复制的时间越长 // 数字越大,对主服务器的压力就变大了 sentinel parallel-syncs mymaster 1 // 故障转移超时时间 sentinel failover-timeout mymaster 180000

对于每个 Sentinel 实例配置除了 port 和 logfile 不同之外,其他配置项都是一样的。修改好配置后,我们可以使用 ./redis-sentinel sentinel.conf 命令来启动哨兵,命令跟 redis 实例启动差不多,因为哨兵也是 redis 实例,所以我们可以使用 ./redis-cli -p 26379 info sentinel 命令查看当前的哨兵信息,如下图所示:

哨兵信息

问题:如何在只配置 master 服务器的情况下,发现从服务器和其他 Sentinel ?

从服务器的发现,Sentinel 可以通过询问主服务器来获取从服务器的信息,对于发现其他 Sentinel 节点,则通过发布与订阅功能实现,通过向频道 sentinel:hello 发送信息来实现的,主要有以下两步:

1、每个 Sentinel 每 2 秒会通过发布与订阅功能向所有的主服务和从服务器的 sentinel:hello 频道发送一条信息, 信息中包含了 Sentinel 的 IP 地址、端口号和运行 ID (runid)

2、每个 Sentinel 都订阅了被它监视的所有主服务器和从服务器的 sentinel:hello 频道, 查找之前未出现过的 sentinel (looking for unknown sentinels)。当一个 Sentinel 发现一个新的 Sentinel 时, 它会将新的 Sentinel 添加到一个列表中, 这个列表保存了 Sentinel 已知的, 监视同一个主服务器的所有其他 Sentinel

哨兵故障转移原理

故障转移是哨兵的主要工作,这背后的实现逻辑也是非常的复杂,具体的实现逻辑还请查看相关书籍,我对哨兵的故障转移总结了以下三点:

1、监听服务器

每个 Sentinel 节点每隔 1 秒对主节点、从节点、其他 Sentinel 节点发送 ping 命令做心跳检测,来判断服务器的状态。

节点也会对 Sentinel 进行相应的回复,在这些回复中,以下三种回复是有效回复:

  • 返回 +PONG

  • 返回 -LOADING

  • 返回 -MASTERDOWN

如果节点在哨兵配置文件设置的 master-down-after-milliseconds 选项的值内,一直没有哪怕一次有效回复,那么 Sentinel 会把该服务器标记为下线状态,我们把这种下线称为主观下线,也就是说只有这个 sentinel 认为该服务器是下线状态。

如果被主观下线的服务器是主服务器时,sentinel 为了确认这个主服务器是否真的下线,该 Sentinel 会向其他的同样监听主服务器的 Sentinel 进行询问,看他们是否也认为主服务器进入下线状态,当有足够多的 Sentinel 都认为主服务器下线时,该 Sentinel 会将主服务器判断为客观下线,这是真正的下线了,并且会对它进行故障转移操作。

2、选举 Sentinel 节点完成转移任务

故障转移并不是所有的 sentinel 共同完成,而是选举出一台 sentinel 节点作为领导者来完成这次故障转移,所以当主服务器被标记为客观下线时,sentinel 之间就会通过 Raft 算法选举出一个领导者来完成故障转移工作。大致规则和方法如下,redis进行sentinel的领头选举

  • 所有在线的 sentinel 都有资格被选为领导者,也就是说每个 sentinel 都有成为领导者的机会

  • 当 sentinel 标记主服务器为主观下线时,会向其他 Sentinel 节点发送 sentinel is-master-down-by-addr 命令, 要求将自己设置为领导者

  • 收到命令的 Sentinel 节点,采用先到先得的规则,如果没有同意过其他 Sentinel 节点的 sentinel is-master-down-by-addr 命令,将同意该请求,否则拒绝

  • 如果该 Sentinel 节点发现自己的票数已经超过半数,那么它将成为领导者

  • 如果在规定时间内,没有选举出 sentinel 领导者,那么将在一段时间后再次选举,知道选出 sentinel 领导者为止。

3、选举新 master 服务器完成故障转移

选举出来的 sentinel 领导者将完成剩下的故障转移工作,故障转移主要有以下三步:

(1)挑选出新的主服务器

在已下线的主服务器的所有从服务器中,挑选出一个从服务器,并将其转换为主服务器,选择新的主服务器的规则如下:

  • 在失效主服务器属下的从服务器当中, 那些被标记为主观下线、已断线、或者最后一次回复 PING 命令的时间大于五秒钟的从服务器都会被淘汰

  • 在失效主服务器属下的从服务器当中, 那些与失效主服务器连接断开的时长超过 down-after 选项指定的时长十倍的从服务器都会被淘汰

  • 在经历了以上两轮淘汰之后剩下来的从服务器中, 选出复制偏移量(replication offset)最大的那个从服务器作为新的主服务器;
    如果复制偏移量不可用, 或者从服务器的复制偏移量相同, 那么带有最小运行 ID 的那个从服务器成为新的主服务器

对挑选出来的从服务器执行 slaveof no one 命令,使其成为主节点。

(2)修改其他从服务器的复制目标

当新的主服务器出现后,sentinel 的领导者下一步需要做的就是,让其他从服务器去复制新的主服务器,通过向其他从服务器发送 slaveof new_master port 命令来完成,复制规则和配置文件的 parallel-syncs 参数有关

(3)将旧的主服务器变成从服务器

故障转移操作最后要做的就是将已下线的主服务器设置为新的主服务的从服务器,并保持对其关注,等它恢复后命令它去复制新的主节点。



Redis是一款支持缓存、消息队列、数据存储等多种应用场景的高性能NoSQL数据库,受到了广泛的应用。但即使是Redis,也无法保证百分百的可靠性,一旦主节点出现故障,业务数据可能会面临重大损失。这时,Redis哨兵故障转移便发挥了重要作用。本文将为大家剖析Redis哨兵故障转移的原理。
1. 什么是Redis哨兵?
Redis哨兵是一种专门用于监控Redis实例状态的组件。通常情况下,一个Redis架构是由多个Redis节点组成的集群,其中一个节点是主节点,其他节点是从节点。管理员可以通过哨兵监测Redis实例的状态,并在主节点宕机时将从节点晋升为主节点。
2. 哨兵检测Redis节点的机制是什么?
哨兵通过向Redis节点发送命令来检测节点状态。哨兵会向被监控节点发送PING命令,如果在规定时间内没有响应,则会向节点发送info命令来获取Redis实例的信息,以此判断节点是否处于健康状态。
3. 哨兵如何进行故障转移?
当主节点出现故障时,哨兵会自动感知到。Redis哨兵系统会在所有哨兵之间进行通信,分析Redis节点的状态,并选出优先级最高的Redis从节点作为新的主节点。哨兵会将新主节点的信息保存在之前主节点的节点映射表里,并将故障节点的信息从节点映射表中删除。然后哨兵会向客户端发送新的主节点的IP地址和端口,客户端就可以重新连接到新的主节点了。
4. Redis哨兵故障转移的流程是什么?
Redis哨兵故障转移过程分为4个步骤:
Step 1:主节点宕机 → 哨兵系统检测到并广播给所有哨兵。
Step 2:哨兵系统从所有运行正常的从节点中选举出优先级最高的(权重最大的)从节点作为新的主节点。
Step 3:哨兵通知客户端新的主节点IP地址和端口。
Step 4:客户端连接到新的主节点。
5. 如何提高Redis哨兵故障转移的可用性?
为了增强Redis哨兵故障转移的可用性,可以采取如下措施:
① 增加Redis哨兵的数量,建议哨兵数量为基数。
② 哨兵的配置应当分散在不同的物理机器上。
③ 在哨兵选主时,应当考虑优先级和权重,选举出权重最大的节点作为主节点,从而降低切换时业务受影响的时间。
6. Redis哨兵故障转移有哪些缺点?
Redis哨兵故障转移有以下缺点:
① Redis哨兵系统的可靠性和稳定性会在哨兵节点数量较少的情况下降低。
② 当出现网路闪断等异常情况时,哨兵可能会误判节点状态,引发错误的主节点选举。
7. 总结
Redis哨兵故障转移的原理及实现方式对Redis架构的可靠性和运维效率都有很大的提升作用,但仍然需要根据实际业务需求和采用的架构方案来决定是否采用哨兵技术。对于超大规模的Redis数据集群,可能需要使用更复杂的方案,比如Redis Cluster。