收起左侧

物理机运行约24小时后死机(电源灯亮,显示器无信号)

3
回复
61
查看
[ 复制链接 ]

2

主题

8

回帖

0

牛值

江湖小虾

物理机运行约24小时后死机(电源灯亮,显示器无信号)

系统版本: X86 / 飞牛OS 1.1.3104

设备环境:

  • 物理机(富士通 Q558,CPU i3-9100T)
  • 局域网访问
  • 系统版本:1.1.3104以及之前的两个6.18.18内核版本

**BUG现象:**​物理机运行约 24 小时 后突然死机,现象如下:

  1. 设备无法通过网络访问(Web、SSH 均无响应),ping 不通。
  2. 电源指示灯亮,但连接显示器无任何信号输出。
  3. 强制断 电重启后可恢复正常,但再次运行约 24 小时后故障复现。
  4. 死机前系统负载飙升(load average 可达 20~30),iowait 高达 94% 以上,系统日志中反复出现 NVMe 硬盘 I/O 超时错误,最终硬盘控制器复位失败,系统完全死锁。

复现路径(必现):

  1. 正常启动飞牛 OS,运行约 24 小时(期间可正常使用,包括 Docker 容器、Jellyfin 等)。
  2. 每天傍晚(约 18:10 ~ 19:30 之间,具体时间与系统定时任务有关)系统开始出现高 I/O 等待,部分进程阻塞,最终完全死机。
  3. 重启后系统可以继续运行,但 24 小时后故障再次出现。

排查过程:

  • 已尝试关闭 Jellyfin 硬件加速、关闭 Watchtower、关闭飞牛相册 GPU 加速,均无效。
  • 已添加 GRUB 内核参数 pcie_aspm=off acpi=force intel_idle.max_cstate=1 processor.max_cstate=1,无效。
  • 最终通过内核日志发现关键错误:nvme nvme0: I/O timeoutDevice not readyreset controller 失败。
  • 刚添加内核参数 nvme_core.default_ps_max_latency_us=0 尝试禁用 NVMe 低功耗模式,目前正在观察中(尚未复现)。

出现频率: 必现(每天一次,运行约 24 小时)

联系方式: 754群-陆🐻

日志文件:

  • 已上传系统诊断日志(由飞牛OS日志应用导出)。
  • 另附死机前后捕获的 NVMe 监控日志打包文件(包含 nvme_monitor.lognvme_events.loglast_kernel.loglast_io.log),可作为辅助证据。

关键日志片段:

[87451.815008] nvme nvme0: I/O tag 450 (b1c2) opcode 0x0 (I/O Cmd) QID 4 timeout, aborting req_op:FLUSH(2) size:0
[87464.618756] nvme nvme0: I/O tag 129 (d081) opcode 0x0 (I/O Cmd) QID 3 timeout, aborting req_op:FLUSH(2) size:0
[87471.018760] nvme nvme0: I/O tag 921 (0399) opcode 0x1 (I/O Cmd) QID 2 timeout, aborting req_op:WRITE(1) size:8192
[87480.486727] nvme nvme0: I/O tag 7 (2007) opcode 0x6 (Admin Cmd) QID 0 timeout, reset controller

SSD 健康信息:

critical_warning                        : 0
temperature                             : 42°C
media_errors                            : 0
num_err_log_entries                     : 1,124

补充说明:

  • 该问题可能与飞牛 OS 内核 6.18.18 的 NVMe 驱动或电源管理策略有关,部分 NVMe 硬盘在长时间运行后出现超时。
  • 不确定添加 nvme_core.default_ps_max_latency_us=0 是否可规避,但希望官方能优化驱动或提供更稳定的内核版本。

日志链接:通过网盘分享的文件:日志.zip
链接: https://pan.baidu.com/s/1oKLZwqNbcjYsXlglcquCDA?pwd=arpb 提取码: arpb

收藏
送赞
分享

感谢反馈!结合日志看是硬盘 I/O 超时异常,建议先换一块 NVMe 或其他硬盘测试。同时关闭 Docker、备份、下载、媒体刮削等任务,观察 24 小时后是否还会死机。也请检查是否设置过定时任务或脚本,关闭后再观察一轮,方便判断具体原因。

1

主题

1

回帖

0

牛值

江湖小虾

解决问题了吗?我这也是这种情况,升级后就这样了

完全禁用了NVME休眠功能好像有效果 在nano /etc/default/grub 添加nvme_core.default_ps_max_latency_us=0 我现在是这样子的: GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer pcie_aspm=off acpi=force reboo  详情 回复
前天 20:57

2

主题

8

回帖

0

牛值

江湖小虾

前天 20:57 楼主 显示全部楼层
小清新 发表于 2026-5-19 19:31
解决问题了吗?我这也是这种情况,升级后就这样了

完全禁用了NVME休眠功能好像有效果
在nano /etc/default/grub
添加nvme_core.default_ps_max_latency_us=0
我现在是这样子的:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer pcie_aspm=off acpi=force reboot=acpi intel_idle.max_cstate=1 processor.max_cstate=1 nvme_core.default_ps_max_latency_us=0"

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则