K8S Node異常問題排查過程

更新時(shí)間：2026年01月16日 08:57:29 作者：CN-FuWei

文章介紹了使用kubectl命令行對K8S集群中的Node異常進(jìn)行初步定位的方法,包括查看NotReady發(fā)生時(shí)間、異常event、NodeConditions以及kubelet日志,文章還詳細(xì)描述了常見問題的解決方法,如Kubelet停止匯報(bào)心跳、PLEG不可用和Node被驅(qū)逐等情況

一、簡介

可使用 kubectl 命令行對 K8S Node 異常做初步定位，方法幾乎適用于所有 K8S 集群。

二、排查方法

使用 grafana kubelet 查看 NotReady 發(fā)生時(shí)間：

# kubectl get nodes
NAME          STATUS     ROLES    AGE   VERSION
172.16.80.4   Ready      <none>   18h   v1.20.8
172.16.80.6   NotReady   <none>   18h   v1.20.8

kubectl describe node 172.16.80.6 查看異常 event

Conditions:
  Type                 Status    LastHeartbeatTime                 LastTransitionTime                Reason              Message
  ----                 ------    -----------------                 ------------------                ------              -------
  NetworkUnavailable   False     Mon, 13 Jun 2022 19:41:10 +0800   Mon, 13 Jun 2022 19:41:10 +0800   RouteCreated        CCE RouteController created a route
  MemoryPressure       Unknown   Tue, 14 Jun 2022 14:08:00 +0800   Tue, 14 Jun 2022 14:09:36 +0800   NodeStatusUnknown   Kubelet stopped posting node status.
  DiskPressure         Unknown   Tue, 14 Jun 2022 14:08:00 +0800   Tue, 14 Jun 2022 14:09:36 +0800   NodeStatusUnknown   Kubelet stopped posting node status.
  PIDPressure          Unknown   Tue, 14 Jun 2022 14:08:00 +0800   Tue, 14 Jun 2022 14:09:36 +0800   NodeStatusUnknown   Kubelet stopped posting node status.
  Ready                Unknown   Tue, 14 Jun 2022 14:08:00 +0800   Tue, 14 Jun 2022 14:09:36 +0800   NodeStatusUnknown   Kubelet stopped posting node status.

kubectl get node 172.16.80.6 -o yaml 查看 NodeConditions:

  conditions:
  - lastHeartbeatTime: "2022-06-13T11:41:10Z"
    lastTransitionTime: "2022-06-13T11:41:10Z"
    message: CCE RouteController created a route
    reason: RouteCreated
    status: "False"
    type: NetworkUnavailable
  - lastHeartbeatTime: "2022-06-14T06:08:00Z"
    lastTransitionTime: "2022-06-14T06:09:36Z"
    message: Kubelet stopped posting node status.
    reason: NodeStatusUnknown
    status: Unknown
    type: MemoryPressure
  - lastHeartbeatTime: "2022-06-14T06:08:00Z"
    lastTransitionTime: "2022-06-14T06:09:36Z"
    message: Kubelet stopped posting node status.
    reason: NodeStatusUnknown
    status: Unknown
    type: DiskPressure
  - lastHeartbeatTime: "2022-06-14T06:08:00Z"
    lastTransitionTime: "2022-06-14T06:09:36Z"
    message: Kubelet stopped posting node status.
    reason: NodeStatusUnknown
    status: Unknown
    type: PIDPressure
  - lastHeartbeatTime: "2022-06-14T06:08:00Z"
    lastTransitionTime: "2022-06-14T06:09:36Z"
    message: Kubelet stopped posting node status.
    reason: NodeStatusUnknown
    status: Unknown
    type: Ready

登錄節(jié)點(diǎn)查看 kubelet 的日志：

 journalctl -u kubelet --since="2022-06-14 14:00:00" | less

三、常見問題

Kubelet stopped posting node status

kubelet 停止匯報(bào)心跳，通常是 node 節(jié)點(diǎn)宕機(jī)，可讓用戶嘗試登錄節(jié)點(diǎn)，無法登錄的話，一般通過重啟恢復(fù)。原因一般和節(jié)點(diǎn)負(fù)載有關(guān)，可通過監(jiān)控查看節(jié)點(diǎn)異常前負(fù)載情況。

PLEG is not healthy

Pod Lifecycle Event Generator，kubelet 會定期同步 pod 狀態(tài)，當(dāng)同步 pod 狀態(tài)超時(shí)（3分鐘），會將 node 置為 not ready 狀態(tài)。

通過命令定位是否有容器 inspect 卡住的情況： docker ps -a -q | xargs docker inspect

如果該命令卡住，則進(jìn)一步定位是由具體的哪個(gè)容器導(dǎo)致，通過 docker inspect {CONTAINER ID} 確認(rèn)。定位到具體容器后，經(jīng)客戶允許后可將該容器刪除 docker rm -f {CONTAINER ID}

Node Evicted

當(dāng)節(jié)點(diǎn)因?yàn)橘Y源不足（CPU、內(nèi)存、磁盤）被驅(qū)逐時(shí)，需根據(jù)不同原因處理：

CPU，內(nèi)存資源不足：

- 虛機(jī)升配

- 合理設(shè)置資源的 resource request，使 pod 合理調(diào)度到不同的節(jié)點(diǎn)上。

磁盤空間不足：

- 擴(kuò)容容器數(shù)據(jù)目錄所在磁盤

總結(jié)

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

K8S Node異常問題排查過程

目錄

一、簡介

二、排查方法

三、常見問題

Kubelet stopped posting node status

PLEG is not healthy

Node Evicted

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

K8S Node異常問題排查過程

目錄

一、簡介

二、排查方法

三、常見問題

Kubelet stopped posting node status

PLEG is not healthy

Node Evicted

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

一、簡介

二、排查方法