系统版本: X86
设备环境:
物理机,AMD Ryzen 7 8745HS,局域网环境
系统盘:WDC WDS500G2B0C-00PXH0 (NVMe 465.8G)
数据盘:aigo NVMe SSD P3500 2TB (NVMe 1.9T)
飞牛 OS 版本:最新(6.18.18-trim 内核)
BUG现象:
系统运行约5小时后出现假死,具体表现为:
- IO Wait 达到 99.6%,但实际磁盘无任何读写(r/s=0, w/s=0)
- 系统负载飙升(最高23+),但 CPU idle 99%——负载来自等待IO的进程
- NVMe 驱动队列完全堆积:nvme0n1 in_flight=8953,平均等待时间 9,280,587ms(约2.5小时)
- 监控服务(enhanced_monitor)捕捉到两次崩溃事件:
- 05-01 23:12:IO_WAIT_HIGH(98.96%)
- 05-02 04:11:LOAD_HIGH(13.78)
已排除的因素:内存充足(26G可用)、无OOM、无温度异常(NVMe 27°C)、无kernel panic
出现频率: 必现(运行约5小时后必然发生)
联系方式: 1群-XXX
日志文件:
系统诊断日志已开启监控,数据位于:
/vol1/@apphome/trim.openclaw/data/workspace/hardware-monitor/logs/
- crash_history.json — 崩溃历史
- crash_snaps/ — 两次事件完整快照(含 iostat、nvme stats)
- monitor.log — 监控日志
备注: 固件已更新到最新,怀疑是 WDC NVMe 盘固件在特定负载下失去响应,驱动层面表现为 queue hang。
附openclaw自己写的日志抓取系统的分析结果:
