1.Kubernetes 集群频繁出现节点 NotReady

1.1 问题

Kubernetes 集群中的节点频繁出现 NotReady 状态，即使自动恢复后不久又再次变为 NotReady

影响范围：

直接影响：节点上运行的 Pod 可能被驱逐，导致服务中断、数据丢失或处理延迟。
间接影响：频繁的节点状态变化可能导致调度压力增大、资源利用率降低，影响集群整体稳定性和性能

1.2 排查方案

监控节点资源使用：使用 kubectl top nodes 和第三方监控工具（如 Prometheus + Grafana）持续监控节点的 CPU、内存、磁盘、网络等资源使用情况，查找是否有资源耗尽的迹象。
检查节点日志与系统状态：登录到问题节点，检查系统日志（如 /var/log/messages、/var/log/syslog 等）、Docker（或 Containerd）日志、kubelet 日志，查找与节点状态变化相关的错误或警告。
排查硬件故障或网络问题：检查节点的硬件状态（如 CPU、内存、磁盘健康状况），以及网络设备（如网卡、交换机）的状态和日志，看是否存在硬件故障或网络问题。
检查节点配置与污点：使用 kubectl describe node <node-name> 查看节点详细信息，确认节点配置（如标签、Taints）是否合理，是否被正确调度。
排查系统级软件问题：检查节点的操作系统、内核、kubelet、Docker（或 Containerd）、CNI 插件等软件版本和配置，确认无已知问题或冲突。必要时，升级到稳定版本或重新安装

2-Harbor

3-Docker

1.安装

🍎维护手册

4-Containerd

1.安装

3.镜像管理

4.构建镜像

5-Dockerfile

🍂 env案例

6-Docker-Compose

7-Swarm

8-KVM

2-资源对象

2-Pod

5-Deployment

6-StatefulSet

7-Service

9-Job

10-ConfigMap

11-Secret

13-CoreDns

17-发布

3-存储

1- 存储卷概念

2-NFS

4-Minio

1-安装

4-网络

1-Calico

2-Cilium

OpenELB

5-认证与授权

6-安装

1.二进制安装

2.kubeadm安装

7-监控

1-Prometheus

2-Alertmanager

3-PrometheusAlert

4-Grafana

5-VictoriaMetrics

8-备份

9-常用操作

10-Yaml配置

11-Helm

3-Helm语法

🍎 Helm项目

12-CICD

1-Jenkins

2-ArgoCD

13-Ingress

1-Ingress_nginx

2-Higress

15-Autoscaler

1-HPA

2-VPA

3-OpenKruise

1-Kruise

16-Scheduler

云k8s

1-AWS EKS

5-ingress-nginx

🍎维护手册

4-TKE

🍎维护手册

18-Kubernetes故障排查

19-Kubernetes排查手册

1-WireShark

20-Kubernetes维护手册

21-Kubernetes面试

22-Kubernetes发布

1-Go

2-Go框架

3-Go编译

5-Go文档

6-Go日志

10-Go模块

11-Web前端开发

vue