Skip to content

监控大盘

参考 Linux 广泛使用的 Node Exporter 监控大盘,结合 Windows 自身的特点,我们建议默认监控大盘至少包含以下指标 panel:

  • CPU

    • 使用率(%):Windows 正常运行最重要的指标之一。
    • DPC 队列长度、等待线程队列长度、上下文切换次数:反应 Windows 系统调度繁忙程度的重要指标。
  • 内存

    • 物理内存使用率(%)、虚拟内存使用率(%):Windows 正常运行最重要的指标之一。
    • 分页文件使用率(%)、分页错误率(%)。
    • 分页/非分页内存量。
  • 磁盘

    • 空间使用率(%):显示磁盘剩余可用空间。
    • 磁盘空闲率(%):反映磁盘繁忙程序。
    • 读写 IOPS、读写队列长度:反应进程对磁盘的操作状态。
  • 网络

    • 流入/出速率(bit/s):反映网络繁忙程度的核心指标。
    • TCP 连接数(Listen、total、non_established、established):反映进程使用网络的各阶段状态。
    • TCP 重传次率:反映 Windows 与外界交互的网络稳定性。
  • 进程

    • CPU 使用率(%):展示进程耗用 CPU 的情况。
    • 内存使用率(%):展示进程使用内存情况。
    • 句柄数。
    • IO 字节数:展示进程 IO 读写量。

最后,为了方便运维人员快速查看所管理 Windows 集群的整体运行情况,我们还建议配置TopN(包含 CPU 使用率、磁盘空间使用率、磁盘空闲率、网络流量等关键指标)大盘。

告警规则

根据前面对各项主要指标的介绍,我们建议配置至少如下默认告警规则:

  • CPU

    • 使用率:持续 n 分钟超过 x%(参考值:80%),表示 CPU 已成为瓶颈。
    • 等待处理线程队列长度:持续 n 分钟过 CPU 核数*2,表示 CPU 调度已满负荷。
  • 内存

    • 物理内存使用率:持续 n 分钟超过 x%(参考值:90%),表示内存资源已不足。
  • 磁盘

    • 空间使用率:持续 n 分钟大于 x%(参考值:85%),表示磁盘剩余空间不足,系统即将进入不可知状态。
    • 空闲率:持续 n 分钟小于 x%(参考值:15%),表示磁盘过于繁忙。
  • 网络

    • 网络连接数(established):持续 n 分钟大于 x 个,表示网络连接数过多。
    • 网络连接数(non_established):持续 n 分钟大于 x 个,表示可能存在网络连接过载或关闭异常。
    • TCP 重传率:持续 n 分钟大于 x%(参考值:5%),表示网络负载过重或网络不稳定。