监控告警不触发常见硬件原因分析

设备在线但告警失灵，别只盯着软件看

上周去客户现场，机房空调故障导致温度飙升到38℃，可监控平台一点动静都没有。一查日志，传感器数据明明上传了，阈值也设对了，就是不发告警。最后发现是采集器的告警模块供电不稳，电压波动让进程隔几分钟就崩溃一次。

这种“监控看着正常，关键时刻掉链子”的情况，在老旧机房特别常见。很多人第一反应是改配置、重启服务，其实硬件层面的问题更值得先排查。

监控设备用的工业级主板看似结实，但长期运行下电源模块电容容易鼓包。表现就是系统偶尔重启，或者某个关键进程无故退出。比如Zabbix的alertsender进程，如果供电不稳，可能刚收到触发条件就断了，自然没法推送消息。

有个简单判断方法：拿手机拍一段设备工作时的LED指示灯视频，回放时如果看到闪烁频率异常，大概率是电源问题。有条件的话换一个同规格电源试试，十分钟就能验证。

某次排查Prometheus告警不触发，发现rule evaluation耗时从200ms涨到15秒。查了一圈网络和CPU，最后锁定是监控服务器那块机械硬盘快挂了。iowait飙到40%以上，规则引擎取不到最新数据，当然没法判断是否越限。

特别是用了几年的老服务器，监控数据全写在本地盘上，一旦磁盘健康度下降，整个告警链条都会变慢甚至中断。用smartctl查下硬盘的Reallocated_Sector_Ct和Current_Pending_Sector，超过5就要警惕了。

有台环境监测设备装在车间角落，Wi-Fi信号只有两格。平时看Web界面还能刷出实时数据，可一到温湿度超限就不告警。抓包发现UDP上报包丢了近三成，TCP重传又让数据延迟超过阈值判断周期。

这种情况别指望软件层能解决。换个位置加个中继，或者直接拉根网线，比调三天告警脚本都管用。实在没条件布线，至少把上报间隔从30秒改成10秒，提高有效送达概率。

一批国产温感探头批量部署后，发现高温告警总漏报。厂家技术支持远程看了下，说是某个版本固件在连续触发五次后会锁死中断引脚。升级到v1.2.7-fix版才解决。

这类问题最难排查，因为设备状态显示正常，日志也没报错。建议列个清单，把所有监控设备的固件版本记下来，定期去官网看有没有更新说明。特别是写着‘修复偶发性告警丢失’这种描述的，赶紧升级。

去年处理过类似的案例，八台服务器的IPMI告警全失效，查了半天以为是BMC设置问题。最后发现是机房UPS切换时产生瞬时高压，把管理网口PHY芯片打坏了。虽然主业务网络没事，但带外监控彻底瘫痪。所以做巡检别光看面板灯，真得动手测测每个告警通路是否完整。