Redis腦裂導(dǎo)致數(shù)據(jù)丟失的解決

更新時間：2023年01月25日 10:28:46 作者：JavaEdge.

本文主要介紹了Redis腦裂導(dǎo)致數(shù)據(jù)丟失的解決，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

1 案例

主從集群有1個主庫、5個從庫和3個哨兵實例，突然發(fā)現(xiàn)客戶端發(fā)送的一些數(shù)據(jù)丟了，直接影響業(yè)務(wù)層數(shù)據(jù)可靠性。

最終排查發(fā)現(xiàn)是主從集群中的腦裂問題導(dǎo)致：主從集群中，同時有兩個主節(jié)點都能接收寫請求。

影響

客戶端不知道應(yīng)往哪個主節(jié)點寫數(shù)據(jù)，導(dǎo)致不同客戶端往不同主節(jié)點寫數(shù)據(jù)。嚴重的，腦裂會進一步導(dǎo)致數(shù)據(jù)丟失。

2 腦裂原因

最初問題：在主從集群中，客戶端發(fā)送的數(shù)據(jù)丟失了。

2.1 為什么數(shù)據(jù)會丟失？

① 確認數(shù)據(jù)同步是否異常

在主從集群中發(fā)生數(shù)據(jù)丟失，最常見原因：主庫數(shù)據(jù)還沒同步到從庫，結(jié)果主庫故障，等從庫升級為主庫后，未同步數(shù)據(jù)丟了。

新寫入主庫的數(shù)據(jù)a=1、b=3，因為在主庫故障前未同步到從庫，失了。

這種數(shù)據(jù)丟失case，可直接對比主從庫的復(fù)制進度差值：

master_repl_offset - slave_repl_offset

若從庫的slave_repl_offset ＜原主庫的master_repl_offset，則可認定數(shù)據(jù)丟失是由數(shù)據(jù)同步未完成導(dǎo)致。

部署主從集群時，也監(jiān)測了：

主庫的master_repl_offset
從庫上的slave_repl_offset

但發(fā)現(xiàn)數(shù)據(jù)丟失后，檢查了新主庫升級前的slave_repl_offset，以及原主庫的master_repl_offset，一致，說明該升級為新主庫的從庫，在升級時已和原主庫的數(shù)據(jù)一致。

那為啥還會出現(xiàn)客戶端發(fā)的數(shù)據(jù)丟失？

所有數(shù)據(jù)操作都是從客戶端發(fā)給Redis實例，是否可從客戶端操作日志發(fā)現(xiàn)問題？

② 排查客戶端的操作日志，發(fā)現(xiàn)腦裂現(xiàn)象

發(fā)現(xiàn)主從切換后的一段時間，有個客戶端仍在和原主庫通信，并沒有和升級的新主庫交互。

相當(dāng)于主從集群中同時有兩個主庫。據(jù)此，想到主從集群故障的腦裂。但不同客戶端給兩個主庫發(fā)送數(shù)據(jù)寫操作，應(yīng)只會導(dǎo)致新數(shù)據(jù)會分布在不同主庫，而不會造成數(shù)據(jù)丟失。

思路又斷了。“從原理出發(fā)是追本溯源的好方法”。腦裂是發(fā)生在主從切換過程，猜測是漏掉了主從集群切換過程中的某環(huán)節(jié)，所以，聚焦主從切換的執(zhí)行過程。

③ 發(fā)現(xiàn)是原主庫假故障導(dǎo)致的腦裂

我們采用哨兵機制進行主從切換的，主從切換發(fā)生時，一定有超過預(yù)設(shè)數(shù)量（quorum配置項）的哨兵實例和主庫的心跳都超時，才會把主庫判斷為客觀下線，然后，哨兵開始執(zhí)行切換操作。

哨兵切換完成后，客戶端會和新主庫通信，發(fā)送請求操作。

但切換過程中，既然客戶端仍和原主庫通信，說明原主庫并未真故障（如主庫進程掛掉）。懷疑主庫某些原因無法處理請求，也沒響應(yīng)哨兵的心跳，被哨兵錯判客觀下線。
被判下線后，原主庫又重新開始處理請求了，而此時，哨兵還沒完成主從切換，客戶端仍可和原主庫通信，客戶端發(fā)送的寫操作就會在原主庫寫數(shù)據(jù)。

為驗證原主庫只是“假故障”，查看原主庫服務(wù)器的資源使用監(jiān)控。原主庫所在機器有段時間CPU利用率飆升，因某程序把機器CPU用滿，導(dǎo)致Redis主庫無法響應(yīng)心跳，這期間，哨兵就把主庫判為客觀下線，開始主從切換。這程序很快恢復(fù)正常，CPU使用率也下來了。原主庫又繼續(xù)正常服務(wù)請求。

正因原主庫未真故障，在客戶端操作日志中就看到和原主庫通信記錄。從庫被升級為新主庫后，主從集群里就有兩個主庫，這就是案例腦裂原因。

3 為何腦裂會導(dǎo)致數(shù)據(jù)丟失？

主從切換后，從庫一旦升級為新主，哨兵就會讓原主庫執(zhí)行slave of命令，和新主重新進行全量同步。

在全量同步執(zhí)行最后階段，原主需清空本地數(shù)據(jù)，加載新主發(fā)送的RDB文件，原主在主從切換期間保存的新寫數(shù)據(jù)就丟了。

主從切換過程中，若原主只是“假故障”，會觸發(fā)哨兵啟動主從切換，一旦等它從假故障恢復(fù)，又開始處理請求，這就和新主共存，導(dǎo)致腦裂。

等哨兵讓原主和新主做全量同步后，原主在切換期間保存的數(shù)據(jù)就丟了。

4 腦裂應(yīng)急方案

主從集群中的數(shù)據(jù)丟失是因為發(fā)生腦裂，必須有應(yīng)對腦裂方案。

問題出在原主假故障后，仍能接收請求，因此，可在主從集群機制的配置項中查找是否有限制主庫接收請求的設(shè)置。Redis提供如下配置項限制主庫的請求處理：

min-replicas-to-write
主庫能進行數(shù)據(jù)同步的最少從庫數(shù)量

min-replicas-max-lag
主從庫間進行數(shù)據(jù)復(fù)制時，從庫給主庫發(fā)送ACK消息的最大延遲（單位s）

分別設(shè)置閾值N和T，倆配置項組合后的要求是：

主庫連接的從庫中至少有N個從庫
和主庫進行數(shù)據(jù)復(fù)制時的ACK消息延遲不能超過T秒

否則，主庫就不會再接收客戶端請求。

即使原主假故障，假故障期間也無法響應(yīng)哨兵心跳，也不能和從庫進行同步，自然就無法和從庫進行ACK確認。這倆配置項組合要求就無法得到滿足，原主庫就會被限制接收客戶端請求，客戶端也就不能在原主庫中寫新數(shù)據(jù)。

等新主上線，就只有新主能接收和處理客戶端請求，此時，新寫的數(shù)據(jù)會被直接寫到新主。而原主會被哨兵降為從庫，即使它的數(shù)據(jù)被清空，也不會有新數(shù)據(jù)的丟失。

假設(shè)

min-replicas-to-write=1
min-replicas-max-lag設(shè)為12s
哨兵的down-after-milliseconds設(shè)為10s

主庫因某原因卡住15s，導(dǎo)致哨兵判斷主庫客觀下線，開始進行主從切換。
同時，因原主庫卡住15s，沒有一個從庫能和原主庫在12s內(nèi)進行數(shù)據(jù)復(fù)制，原主庫也無法接收客戶端請求。
主從切換完成后，也只有新主庫能接收請求，不會發(fā)生腦裂，也就不會發(fā)生數(shù)據(jù)丟失。

5 總結(jié)

腦裂，主從集群中，同時有兩個主能接收寫請求。Redis主從切換過程中，若發(fā)生腦裂，客戶端數(shù)據(jù)就會寫入原主，若原主被降為從庫，這些新寫入數(shù)據(jù)就丟了。

腦裂主要是因為原主庫發(fā)生了假故障，假故障的原因：

和主庫部署在同一臺服務(wù)器上的其他程序臨時占用了大量資源（例如CPU資源），導(dǎo)致主庫資源使用受限，短時間內(nèi)無法響應(yīng)心跳。其它程序不再使用資源時，主庫又恢復(fù)正常
主庫自身遇到阻塞，如處理bigkey或是發(fā)生內(nèi)存swap（你可以復(fù)習(xí)下第19講中總結(jié)的導(dǎo)致實例阻塞的原因），短時間內(nèi)無法響應(yīng)心跳，等主庫阻塞解除后，又恢復(fù)正常的請求處理了。

應(yīng)對腦裂，你可以在主從集群部署時，通過合理地配置參數(shù)min-slaves-to-write和min-slaves-max-lag，來預(yù)防腦裂。

在實際應(yīng)用中，可能會因為網(wǎng)絡(luò)暫時擁塞導(dǎo)致從庫暫時和主庫的ACK消息超時。在這種情況下，并不是主庫假故障，我們也不用禁止主庫接收請求。

6 最佳實踐

假設(shè)從庫有K個，可將：

min-slaves-to-write設(shè)置為K/2+1（如果K等于1，就設(shè)為1）
min-slaves-max-lag設(shè)置為十幾秒（例如10～20s）

這個配置下，如果有一半以上的從庫和主庫進行的ACK消息延遲超過十幾s，我們就禁止主庫接收客戶端寫請求。

這樣一來，我們可以避免腦裂帶來數(shù)據(jù)丟失的情況，而且，也不會因為只有少數(shù)幾個從庫因為網(wǎng)絡(luò)阻塞連不上主庫，就禁止主庫接收請求，增加了系統(tǒng)的魯棒性。

假設(shè)：

min-slaves-to-write 置 1
min-slaves-max-lag 設(shè)置為 15s，哨兵的
down-after-milliseconds 設(shè)置為 10s
哨兵主從切換需要 5s，主庫因為某些原因卡住12s，此時，還會發(fā)生腦裂嗎？主從切換完成后，數(shù)據(jù)會丟失嗎？

主庫卡住 12s，達到哨兵設(shè)定的切換閾值，所以哨兵會觸發(fā)主從切換。但哨兵切換時間5s，即哨兵還未切換完成，主庫就會從阻塞狀態(tài)中恢復(fù)回來，且沒有觸發(fā) min-slaves-max-lag 閾值，所以主庫在哨兵切換剩下的 3s 內(nèi)，依舊可以接收客戶端的寫操作，如果這些寫操作還未同步到從庫，哨兵就把從庫提升為主庫了，那么此時也會出現(xiàn)腦裂的情況，之后舊主庫降級為從庫，重新同步新主庫的數(shù)據(jù)，新主庫也會發(fā)生數(shù)據(jù)丟失。

即使 Redis 配置了 min-slaves-to-write 和 min-slaves-max-lag，當(dāng)腦裂發(fā)生時，還是無法嚴格保證數(shù)據(jù)不丟失，只是盡量減少數(shù)據(jù)的丟失。

這種情況下，新主庫之所以會發(fā)生數(shù)據(jù)丟失，是因為舊主庫從阻塞中恢復(fù)過來后，收到的寫請求還沒同步到從庫，從庫就被哨兵提升為主庫了。如果哨兵在提升從庫為新主庫前，主庫及時把數(shù)據(jù)同步到從庫了，那么從庫提升為主庫后，也不會發(fā)生數(shù)據(jù)丟失。但這種臨界點的情況還是有發(fā)生的可能性，因為 Redis 本身不保證主從同步的強一致。

還有一種腦裂情況，就是網(wǎng)絡(luò)分區(qū)：主庫和客戶端、哨兵和從庫被分割成了 2 個網(wǎng)絡(luò)，主庫和客戶端處在一個網(wǎng)絡(luò)中，從庫和哨兵在另一個網(wǎng)絡(luò)中，此時哨兵也會發(fā)起主從切換，出現(xiàn) 2 個主庫的情況，而且客戶端依舊可以向舊主庫寫入數(shù)據(jù)。等網(wǎng)絡(luò)恢復(fù)后，主庫降級為從庫，新主庫丟失了這期間寫操作的數(shù)據(jù)。

腦裂本質(zhì)是，Redis 主從集群內(nèi)部沒有通過共識算法，來維護多個節(jié)點數(shù)據(jù)的強一致性。不像 Zookeeper，每次寫請求必須大多數(shù)節(jié)點寫成功后才認為成功。當(dāng)腦裂發(fā)生時，Zookeeper 主節(jié)點被孤立，此時無法寫入大多數(shù)節(jié)點，寫請求會直接返回失敗，因此它可以保證集群數(shù)據(jù)的一致性。

對于min-slaves-to-write，如果只有 1 個從庫，當(dāng)把 min-slaves-to-write 設(shè)置為 1 時，在運維時需要小心一些，當(dāng)日常對從庫做維護時，例如更換從庫的實例，需要先添加新的從庫，再移除舊的從庫才可以，或者使用 config set 修改 min-slaves-to-write 為 0 再做操作，否則會導(dǎo)致主庫拒絕寫，影響到業(yè)務(wù)。

到此這篇關(guān)于Redis腦裂導(dǎo)致數(shù)據(jù)丟失的解決的文章就介紹到這了,更多相關(guān)Redis腦裂內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: