监控大盘
参考 Linux 广泛使用的 Node Exporter 监控大盘,结合 Windows 自身的特点,我们建议默认监控大盘至少包含以下指标 panel:
CPU
- 使用率(%):Windows 正常运行最重要的指标之一。
- DPC 队列长度、等待线程队列长度、上下文切换次数:反应 Windows 系统调度繁忙程度的重要指标。
内存
- 物理内存使用率(%)、虚拟内存使用率(%):Windows 正常运行最重要的指标之一。
- 分页文件使用率(%)、分页错误率(%)。
- 分页/非分页内存量。
磁盘
- 空间使用率(%):显示磁盘剩余可用空间。
- 磁盘空闲率(%):反映磁盘繁忙程序。
- 读写 IOPS、读写队列长度:反应进程对磁盘的操作状态。
网络
- 流入/出速率(bit/s):反映网络繁忙程度的核心指标。
- TCP 连接数(Listen、total、non_established、established):反映进程使用网络的各阶段状态。
- TCP 重传次率:反映 Windows 与外界交互的网络稳定性。
进程
- CPU 使用率(%):展示进程耗用 CPU 的情况。
- 内存使用率(%):展示进程使用内存情况。
- 句柄数。
- IO 字节数:展示进程 IO 读写量。
最后,为了方便运维人员快速查看所管理 Windows 集群的整体运行情况,我们还建议配置TopN(包含 CPU 使用率、磁盘空间使用率、磁盘空闲率、网络流量等关键指标)大盘。
告警规则
根据前面对各项主要指标的介绍,我们建议配置至少如下默认告警规则:
CPU
- 使用率:持续 n 分钟超过 x%(参考值:80%),表示 CPU 已成为瓶颈。
- 等待处理线程队列长度:持续 n 分钟过 CPU 核数*2,表示 CPU 调度已满负荷。
内存
- 物理内存使用率:持续 n 分钟超过 x%(参考值:90%),表示内存资源已不足。
磁盘
- 空间使用率:持续 n 分钟大于 x%(参考值:85%),表示磁盘剩余空间不足,系统即将进入不可知状态。
- 空闲率:持续 n 分钟小于 x%(参考值:15%),表示磁盘过于繁忙。
网络
- 网络连接数(established):持续 n 分钟大于 x 个,表示网络连接数过多。
- 网络连接数(non_established):持续 n 分钟大于 x 个,表示可能存在网络连接过载或关闭异常。
- TCP 重传率:持续 n 分钟大于 x%(参考值:5%),表示网络负载过重或网络不稳定。