物理机运行约24小时后死机（电源灯亮，显示器无信号）

@陆🐻 · 4 天前

系统版本： X86 / 飞牛OS 1.1.3104

设备环境：

物理机（富士通 Q558，CPU i3-9100T）
局域网访问
系统版本：1.1.3104以及之前的两个6.18.18内核版本

**BUG现象：**物理机运行约 24 小时 后突然死机，现象如下：

设备无法通过网络访问（Web、SSH 均无响应），ping 不通。
电源指示灯亮，但连接显示器无任何信号输出。
强制断电重启后可恢复正常，但再次运行约 24 小时后故障复现。
死机前系统负载飙升（load average 可达 20~30），iowait 高达 94% 以上，系统日志中反复出现 NVMe 硬盘 I/O 超时错误，最终硬盘控制器复位失败，系统完全死锁。

复现路径（必现）：

正常启动飞牛 OS，运行约 24 小时（期间可正常使用，包括 Docker 容器、Jellyfin 等）。
每天傍晚（约 18:10 ~ 19:30 之间，具体时间与系统定时任务有关）系统开始出现高 I/O 等待，部分进程阻塞，最终完全死机。
重启后系统可以继续运行，但 24 小时后故障再次出现。

排查过程：

已尝试关闭 Jellyfin 硬件加速、关闭 Watchtower、关闭飞牛相册 GPU 加速，均无效。
已添加 GRUB 内核参数 pcie_aspm=off acpi=force intel_idle.max_cstate=1 processor.max_cstate=1，无效。
最终通过内核日志发现关键错误：nvme nvme0: I/O timeout → Device not ready → reset controller 失败。

刚添加内核参数 nvme_core.default_ps_max_latency_us=0 尝试禁用 NVMe 低功耗模式，目前正在观察中（尚未复现）。

出现频率： 必现（每天一次，运行约 24 小时）

联系方式： 754群-陆🐻

日志文件：

已上传系统诊断日志（由飞牛OS日志应用导出）。
另附死机前后捕获的 NVMe 监控日志打包文件（包含 nvme_monitor.log、nvme_events.log、last_kernel.log、last_io.log），可作为辅助证据。

关键日志片段：

[87451.815008] nvme nvme0: I/O tag 450 (b1c2) opcode 0x0 (I/O Cmd) QID 4 timeout, aborting req_op:FLUSH(2) size:0
[87464.618756] nvme nvme0: I/O tag 129 (d081) opcode 0x0 (I/O Cmd) QID 3 timeout, aborting req_op:FLUSH(2) size:0
[87471.018760] nvme nvme0: I/O tag 921 (0399) opcode 0x1 (I/O Cmd) QID 2 timeout, aborting req_op:WRITE(1) size:8192
[87480.486727] nvme nvme0: I/O tag 7 (2007) opcode 0x6 (Admin Cmd) QID 0 timeout, reset controller

SSD 健康信息：

critical_warning                        : 0
temperature                             : 42°C
media_errors                            : 0
num_err_log_entries                     : 1,124

补充说明：

该问题可能与飞牛 OS 内核 6.18.18 的 NVMe 驱动或电源管理策略有关，部分 NVMe 硬盘在长时间运行后出现超时。
不确定添加 nvme_core.default_ps_max_latency_us=0 是否可规避，但希望官方能优化驱动或提供更稳定的内核版本。

日志链接：通过网盘分享的文件：日志.zip
链接: https://pan.baidu.com/s/1oKLZwqNbcjYsXlglcquCDA?pwd=arpb 提取码: arpb

飞牛运营同学 · 前天 15:05

感谢反馈！结合日志看是硬盘 I/O 超时异常，建议先换一块 NVMe 或其他硬盘测试。同时关闭 Docker、备份、下载、媒体刮削等任务，观察 24 小时后是否还会死机。也请检查是否设置过定时任务或脚本，关闭后再观察一轮，方便判断具体原因。

小清新 · 前天 19:31

解决问题了吗？我这也是这种情况，升级后就这样了

@陆🐻 · 前天 20:57

小清新发表于 2026-5-19 19:31
解决问题了吗？我这也是这种情况，升级后就这样了

完全禁用了NVME休眠功能好像有效果
在nano /etc/default/grub
添加nvme_core.default_ps_max_latency_us=0
我现在是这样子的：
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer pcie_aspm=off acpi=force reboot=acpi intel_idle.max_cstate=1 processor.max_cstate=1 nvme_core.default_ps_max_latency_us=0"

		自动登录	找回密码
密码			立即注册

物理机运行约24小时后死机（电源灯亮，显示器无信号）

点评

本帖子中包含更多资源