故障排查
本章提供一条“从症状到根因”的标准排查路径,目标是:现场遇到问题时,你能在 10~30 分钟 内判断是设备侧、网络侧、平台侧还是网关参数/容量问题。
先看三件事(最省时间)
- 网关是否健康:进程是否存活、CPU/内存是否异常、关键依赖是否 OK
- 队列是否背压:关键队列是否接近满、是否出现 drops
- 南向 vs 北向:采集是否正常?上报是否正常?不要同时猜两个方向
常见场景与定位路径
场景 A:设备采集数据断断续续
- 看设备连接状态(重连次数、超时次数)
- 看解析错误率(CRC/帧同步失败/非法地址)
- 检查串口参数或网络质量
场景 B:采集正常但上云延迟变大/丢数据
- 看 publish 成功率、重试次数
- 看 northward 队列长度与 drops
- 检查平台侧限流/鉴权失败/网络抖动
场景 C:CPU 飙高或内存持续增长
- 看队列是否长时间接近满(慢消费者导致堆积)
- 检查是否存在无界缓存/过大批处理
- 关注日志中是否存在高频错误导致的日志风暴
场景 D:TLS 握手失败或突然无法连接
- 检查证书是否过期/链是否完整
- 检查域名/SNI 是否匹配
- 检查时间同步(设备时间不准会导致证书验证失败)
