物理机运行约24小时后死机(电源灯亮,显示器无信号)
系统版本: X86 / 飞牛OS 1.1.3104
设备环境:
- 物理机(富士通 Q558,CPU i3-9100T)
- 局域网访问
- 系统版本:1.1.3104以及之前的两个6.18.18内核版本
**BUG现象:**物理机运行约 24 小时 后突然死机,现象如下:
- 设备无法通过网络访问(Web、SSH 均无响应),ping 不通。
- 电源指示灯亮,但连接显示器无任何信号输出。
- 强制断 电重启后可恢复正常,但再次运行约 24 小时后故障复现。
- 死机前系统负载飙升(
load average 可达 20~30),iowait 高达 94% 以上,系统日志中反复出现 NVMe 硬盘 I/O 超时错误,最终硬盘控制器复位失败,系统完全死锁。
复现路径(必现):
- 正常启动飞牛 OS,运行约 24 小时(期间可正常使用,包括 Docker 容器、Jellyfin 等)。
- 每天傍晚(约 18:10 ~ 19:30 之间,具体时间与系统定时任务有关)系统开始出现高 I/O 等待,部分进程阻塞,最终完全死机。
- 重启后系统可以继续运行,但 24 小时后故障再次出现。
排查过程:
- 已尝试关闭 Jellyfin 硬件加速、关闭 Watchtower、关闭飞牛相册 GPU 加速,均无效。
- 已添加 GRUB 内核参数
pcie_aspm=off acpi=force intel_idle.max_cstate=1 processor.max_cstate=1,无效。
- 最终通过内核日志发现关键错误:
nvme nvme0: I/O timeout → Device not ready → reset controller 失败。
- 刚添加内核参数
nvme_core.default_ps_max_latency_us=0 尝试禁用 NVMe 低功耗模式,目前正在观察中(尚未复现)。
出现频率: 必现(每天一次,运行约 24 小时)
联系方式: 754群-陆🐻
日志文件:
- 已上传系统诊断日志(由飞牛OS日志应用导出)。
- 另附死机前后捕获的 NVMe 监控日志打包文件(包含
nvme_monitor.log、nvme_events.log、last_kernel.log、last_io.log),可作为辅助证据。
关键日志片段:
[87451.815008] nvme nvme0: I/O tag 450 (b1c2) opcode 0x0 (I/O Cmd) QID 4 timeout, aborting req_op:FLUSH(2) size:0
[87464.618756] nvme nvme0: I/O tag 129 (d081) opcode 0x0 (I/O Cmd) QID 3 timeout, aborting req_op:FLUSH(2) size:0
[87471.018760] nvme nvme0: I/O tag 921 (0399) opcode 0x1 (I/O Cmd) QID 2 timeout, aborting req_op:WRITE(1) size:8192
[87480.486727] nvme nvme0: I/O tag 7 (2007) opcode 0x6 (Admin Cmd) QID 0 timeout, reset controller
SSD 健康信息:
critical_warning : 0
temperature : 42°C
media_errors : 0
num_err_log_entries : 1,124
补充说明:
- 该问题可能与飞牛 OS 内核 6.18.18 的 NVMe 驱动或电源管理策略有关,部分 NVMe 硬盘在长时间运行后出现超时。
- 不确定添加
nvme_core.default_ps_max_latency_us=0 是否可规避,但希望官方能优化驱动或提供更稳定的内核版本。
日志链接:通过网盘分享的文件:日志.zip
链接: https://pan.baidu.com/s/1oKLZwqNbcjYsXlglcquCDA?pwd=arpb 提取码: arpb