收起左侧

飞牛OS运行数小时后NVMe队列挂死

1
回复
27
查看
[ 复制链接 ]

1

主题

0

回帖

0

牛值

江湖小虾

系统版本: X86

设备环境:
物理机,AMD Ryzen 7 8745HS,局域网环境
系统盘:WDC WDS500G2B0C-00PXH0 (NVMe 465.8G)
数据盘:aigo NVMe SSD P3500 2TB (NVMe 1.9T)
飞牛 OS 版本:最新(6.18.18-trim 内核)

BUG现象:
系统运行约5小时后出现假死,具体表现为:

  1. IO Wait 达到 99.6%,但实际磁盘无任何读写(r/s=0, w/s=0)
  2. 系统负载飙升(最高23+),但 CPU idle 99%——负载来自等待IO的进程
  3. NVMe 驱动队列完全堆积:nvme0n1 in_flight=8953,平均等待时间 9,280,587ms(约2.5小时)
  4. 监控服务(enhanced_monitor)捕捉到两次崩溃事件:
    • 05-01 23:12:IO_WAIT_HIGH(98.96%)
    • 05-02 04:11:LOAD_HIGH(13.78)

已排除的因素:内存充足(26G可用)、无OOM、无温度异常(NVMe 27°C)、无kernel panic

出现频率: 必现(运行约5小时后必然发生)

联系方式: 1群-XXX

日志文件:
系统诊断日志已开启监控,数据位于:
/vol1/@apphome/trim.openclaw/data/workspace/hardware-monitor/logs/

  • crash_history.json — 崩溃历史
  • crash_snaps/ — 两次事件完整快照(含 iostat、nvme stats)
  • monitor.log — 监控日志

备注: 固件已更新到最新,怀疑是 WDC NVMe 盘固件在特定负载下失去响应,驱动层面表现为 queue hang。

附openclaw自己写的日志抓取系统的分析结果:
ScreenShot_2026-05-02_192134_044.png

收藏
送赞
分享

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

感谢反馈,这个问题从现象上看不太像内存、温度或普通服务卡死,更像块设备请求已经下发到 NVMe 队列后没有完成回调,所以上层看到的是负载升高、CPU 空闲、I/O 等待堆积。由于 NVMe 盘、主板 PCIe 通道、BIOS 电源策略和当前内核驱动都会参与这条链路,单靠监控截图还不能直接归因到 fnOS 或某一块盘。建议先做低风险验证:更换系统盘/盘位交叉测试,具体排查一下寻找问题关键。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则