故障排查

本章提供一条“从症状到根因”的标准排查路径，目标是：现场遇到问题时，你能在 10~30 分钟 内判断是设备侧、网络侧、平台侧还是网关参数/容量问题。

先看三件事（最省时间）

网关是否健康：进程是否存活、CPU/内存是否异常、关键依赖是否 OK
队列是否背压：关键队列是否接近满、是否出现 drops
南向 vs 北向：采集是否正常？上报是否正常？不要同时猜两个方向

常见场景与定位路径

场景 A：设备采集数据断断续续

看设备连接状态（重连次数、超时次数）
看解析错误率（CRC/帧同步失败/非法地址）
检查串口参数或网络质量

场景 B：采集正常但上云延迟变大/丢数据

看 publish 成功率、重试次数
看 northward 队列长度与 drops
检查平台侧限流/鉴权失败/网络抖动

场景 C：CPU 飙高或内存持续增长

看队列是否长时间接近满（慢消费者导致堆积）
检查是否存在无界缓存/过大批处理
关注日志中是否存在高频错误导致的日志风暴

场景 D：TLS 握手失败或突然无法连接

检查证书是否过期/链是否完整
检查域名/SNI 是否匹配
检查时间同步（设备时间不准会导致证书验证失败）

下一步阅读