知易网
白蓝主题五 · 清爽阅读
首页  > 硬件维护

监控告警不触发?这几个硬件问题你得查

设备在线但告警失灵,别只盯着软件看

上周去客户现场,机房空调故障导致温度飙升到38℃,可监控平台一点动静都没有。一查日志,传感器数据明明上传了,阈值也设对了,就是不发告警。最后发现是采集器的告警模块供电不稳,电压波动让进程隔几分钟就崩溃一次。

这种“监控看着正常,关键时刻掉链子”的情况,在老旧机房特别常见。很多人第一反应是改配置、重启服务,其实硬件层面的问题更值得先排查。

电源模块老化,告警进程跑着跑着就没了

监控设备用的工业级主板看似结实,但长期运行下电源模块电容容易鼓包。表现就是系统偶尔重启,或者某个关键进程无故退出。比如Zabbix的alertsender进程,如果供电不稳,可能刚收到触发条件就断了,自然没法推送消息。

有个简单判断方法:拿手机拍一段设备工作时的LED指示灯视频,回放时如果看到闪烁频率异常,大概率是电源问题。有条件的话换一个同规格电源试试,十分钟就能验证。

硬盘写入延迟高,触发条件被卡住

某次排查Prometheus告警不触发,发现rule evaluation耗时从200ms涨到15秒。查了一圈网络和CPU,最后锁定是监控服务器那块机械硬盘快挂了。iowait飙到40%以上,规则引擎取不到最新数据,当然没法判断是否越限。

特别是用了几年的老服务器,监控数据全写在本地盘上,一旦磁盘健康度下降,整个告警链条都会变慢甚至中断。用smartctl查下硬盘的Reallocated_Sector_Ct和Current_Pending_Sector,超过5就要警惕了。

网卡丢包,采集数据根本到不了分析端

有台环境监测设备装在车间角落,Wi-Fi信号只有两格。平时看Web界面还能刷出实时数据,可一到温湿度超限就不告警。抓包发现UDP上报包丢了近三成,TCP重传又让数据延迟超过阈值判断周期。

这种情况别指望软件层能解决。换个位置加个中继,或者直接拉根网线,比调三天告警脚本都管用。实在没条件布线,至少把上报间隔从30秒改成10秒,提高有效送达概率。

固件bug导致中断丢失

一批国产温感探头批量部署后,发现高温告警总漏报。厂家技术支持远程看了下,说是某个版本固件在连续触发五次后会锁死中断引脚。升级到v1.2.7-fix版才解决。

这类问题最难排查,因为设备状态显示正常,日志也没报错。建议列个清单,把所有监控设备的固件版本记下来,定期去官网看有没有更新说明。特别是写着‘修复偶发性告警丢失’这种描述的,赶紧升级。

去年处理过类似的案例,八台服务器的IPMI告警全失效,查了半天以为是BMC设置问题。最后发现是机房UPS切换时产生瞬时高压,把管理网口PHY芯片打坏了。虽然主业务网络没事,但带外监控彻底瘫痪。所以做巡检别光看面板灯,真得动手测测每个告警通路是否完整。