收起左侧

物理机FnOS-【不定时死机】

14
回复
362
查看
[ 复制链接 ]

5

主题

18

回帖

0

牛值

江湖小虾

2026-3-30 12:25:20 显示全部楼层 阅读模式
悬赏1飞牛币未解决

硬件配置:

CPU:E3 1245 V6

内存:金士顿 8G 2400 ECC X 4

主板:超微 X11SSH-F

SSD:三星950PRO 256G

HDD:希捷1T两块。

前言:之前在PVE下,虚拟了HAOS和FNOS,使用了近一年时间,前几天,将主机直接安装FnOS,作为物理NAS使用,迁移HAOS为docekr版本,将原加载项应用,迁移为docker版本,其他与原PVE下一致。

原PVE下,长时间开机,并未出现死机问题,然新装FnOS,第二天就出现死机情况,随后登录IPMI查看主机情况,但是页面卡死,在电脑使用ping等各种手段,均无法连接主机,随后重启,作罢,恢复正常,然后查看日志,并未报错信息。

问题:今日HA突然失联,登录IPMI查看,果然页面卡死,随后搜索论坛关于【死机】方面的词条,不查不知道,一查吓一跳,很多物理机存在死机问题,评论区回答各异,很多都归结于硬件,个人觉得不能一概而论。

搜索未果,不知如何解决,特此发帖,希望官方重视,虽然X86平台,硬件配置各异。

但是该配置在其他系统中长时间开机,经过了验证,在FnOS下,同样属于Debian系统,实属不应该。

还望官方给予支持,我将全力配合,感谢!

收藏
送赞 1
分享

5

主题

18

回帖

0

牛值

江湖小虾

2026-3-30 13:06:52 楼主 显示全部楼层

root@FnNAS:# cat /sys/devices/system/cpu/cpu0/cpuidle/state*/name
POLL
C1
C1E
C3
C6
C7s
C8
root@FnNAS:# cat /sys/module/intel_idle/parameters/max_cstate
9
root@FnNAS:~# grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/usage
/sys/devices/system/cpu/cpu0/cpuidle/state0/usage:65485
/sys/devices/system/cpu/cpu0/cpuidle/state1/usage:237221
/sys/devices/system/cpu/cpu0/cpuidle/state2/usage:581384
/sys/devices/system/cpu/cpu0/cpuidle/state3/usage:138239
/sys/devices/system/cpu/cpu0/cpuidle/state4/usage:456673
/sys/devices/system/cpu/cpu0/cpuidle/state5/usage:5107
/sys/devices/system/cpu/cpu0/cpuidle/state6/usage:524015

FNOS内核允许最深C-State,CPU 支持 C6/C7s/C8,FNOS 正在频繁进入深度睡眠。

AI分析,可能原因指向:深度睡眠,已开启日志持久化,BIOS已关闭C-State,等后续测试。

2026年4月3日:20:45左右又一次死机,重启后查看日志,只有重启之后的日志,无死机时的任何日志信息。说明该问题与深度睡眠无关。

73

主题

5684

回帖

1235

牛值

共建版主

社区上线纪念勋章社区共建团荣誉勋章飞牛百度网盘玩家fnOS1.0上线纪念勋章EVO2产品纪念灌水之星

2026-3-30 12:44:19 显示全部楼层

有没有排查一下是不是ha的问题,我记得之前有过类似的情况,你先把ha容器停用测试一下。

目前HA无法迁移至其他主机,HA也无法停止使用。 刚刚找AI排除了一遍,问题指向休眠问题,我已经开启日志持久化,在bios关闭 C-State,等两天看,是不是休眠问题。  详情 回复
2026-3-30 13:01

0

主题

5

回帖

0

牛值

江湖小虾

2026-3-30 12:47:37 显示全部楼层

遇到了类似的问题,物理机直接安装死机,之前ESXi下安装就不会

5

主题

18

回帖

0

牛值

江湖小虾

2026-3-30 13:01:53 楼主 显示全部楼层
玉尺书生 发表于 2026-3-30 12:44
有没有排查一下是不是ha的问题,我记得之前有过类似的情况,你先把ha容器停用测试一下。
...

目前HA无法迁移至其他主机,HA也无法停止使用。

刚刚找AI排除了一遍,问题指向休眠问题,我已经开启日志持久化,在bios关闭 C-State,等两天看,是不是休眠问题。

1

主题

4

回帖

0

牛值

江湖小虾

2026-3-30 15:41:10 显示全部楼层

等待验证情况,我的也是莫名死机

3

主题

28

回帖

0

牛值

fnOS系统内测组

2026-3-31 14:15:43 显示全部楼层

我也遇到两次了

2

主题

30

回帖

0

牛值

系统先锋体验团🛩️

2026-4-4 20:51:13 显示全部楼层

换一个不带核显的CPU,马上解决。

主板群中,有其他人使用i3-8100的U,并无死机问题。 你遇到过是核显问题吗?  详情 回复
2026-4-5 12:15

5

主题

18

回帖

0

牛值

江湖小虾

2026-4-5 12:15:16 楼主 显示全部楼层
黑色闪电 发表于 2026-4-4 20:51
换一个不带核显的CPU,马上解决。

主板群中,有其他人使用i3-8100的U,并无死机问题。
你遇到过是核显问题吗?
我的8100也会时不时死机  详情 回复
昨天 15:30
本来就是概率事件,有时候一个月都不死,有时候一天死几次,有时候重装飞牛,第一次进系统还账户都没有设置完就死了。这个问题已存在一年多。死机的时候,在IPMI里面会显示CPU不存在。所以,不管是物理机还是虚拟机  详情 回复
2026-4-5 16:41

2

主题

30

回帖

0

牛值

系统先锋体验团🛩️

2026-4-5 16:41:03 显示全部楼层
hzonz 发表于 2026-4-5 12:15
主板群中,有其他人使用i3-8100的U,并无死机问题。
你遇到过是核显问题吗? ...

本来就是概率事件,有时候一个月都不死,有时候一天死几次,有时候重装飞牛,第一次进系统还账户都没有设置完就死了。这个问题已存在一年多。死机的时候,在IPMI里面会显示CPU不存在。所以,不管是物理机还是虚拟机,都会死机,虚拟机死机的时候宿主机会跟着一起死。

我测试了E3-1270 V6,E3-1275 V6,G4560,G4400,4个CPU,只有E3-1270 V6不死机,另外3个CPU只有在BIOS里把核显关闭才不死。
你也是超微的主板吗? 是不是与IPMI的显卡有关? 我在PVE下用了很长时间,从未死过机。  详情 回复
2026-4-5 16:46

5

主题

18

回帖

0

牛值

江湖小虾

2026-4-5 16:46:02 楼主 显示全部楼层
黑色闪电 发表于 2026-4-5 16:41
本来就是概率事件,有时候一个月都不死,有时候一天死几次,有时候重装飞牛,第一次进系统还账户都没有设 ...

你也是超微的主板吗? 是不是与IPMI的显卡有关?
我在PVE下用了很长时间,从未死过机。
具体是哪里的问题可能需要官方去排查,但是官方不作为。 我和你一样的主板,我在WIN下和ESXI下,从未死过机。只有在飞牛上死机。 禁用CPU的核显就不死了。  详情 回复
2026-4-6 00:35

2

主题

30

回帖

0

牛值

系统先锋体验团🛩️

2026-4-6 00:35:00 显示全部楼层
hzonz 发表于 2026-4-5 16:46
你也是超微的主板吗? 是不是与IPMI的显卡有关?
我在PVE下用了很长时间,从未死过机。 ...

具体是哪里的问题可能需要官方去排查,但是官方不作为。

我和你一样的主板,我在WIN下和ESXI下,从未死过机。只有在飞牛上死机。

禁用CPU的核显就不死了。
该主板在 “trueNAS” 下,如果启用核显,会报:“EDID block 0 is all zeroes” 错误,意思读取不到EDID,然后使用命令禁止核显输出,只用于解码,就不会再报错。 按照你的测试,如果关闭核显,就能解决问题。个人  详情 回复
2026-4-6 15:47

5

主题

18

回帖

0

牛值

江湖小虾

2026-4-6 15:47:09 楼主 显示全部楼层
[quote][size=2][url=forum.php?mod=redirect&goto=findpost&pid=277353&ptid=59971][color=#999999]黑色闪电 发表于 2026-4-6 00:35[/color][/url][/size] 具体是哪里的问题可能需要官方去排查,但是官方不作为。 我和你一样的主板,我在WIN下和ESXI下,从未死 ...[/quote]

该主板在 “trueNAS” 下,如果启用核显,会报:“EDID block 0 is all zeroes” 错误,意思读取不到EDID,然后使用命令禁止核显输出,只用于解码,就不会再报错。

按照你的测试,如果关闭核显,就能解决问题。个人感觉与这个有关系,因为该主板有IPMI需要使用AST的显卡,但是主板VGA绑定的是AST,核显想要输出,就会和AST造成冲突,导致报错,而其他Linux系统可能有这方面的优化,所以不会造成问题,而trueNAS只是报错。

禁止核显输出:

修改grub:
[code]nano /etc/default/grub[/code]
找到:
[code]GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"[/code]
修改为:
[code]GRUB_CMDLINE_LINUX_DEFAULT="quiet splash i915.disable_display=1"[/code]
如果启用 iommu 加在后面即可。

我目前已经更改,目前正常使用,如果后期不在死机,验证就是此问题,我再发帖说明,你可以修改试试,我是必须要用核显来跑服务,所以只能先禁止核显输出。

0

主题

1

回帖

0

牛值

江湖小虾

hzonz 发表于 2026-4-5 12:15
主板群中,有其他人使用i3-8100的U,并无死机问题。
你遇到过是核显问题吗? ...

我的8100也会时不时死机
也是这个主板吗?  详情 回复
昨天 20:25

5

主题

18

回帖

0

牛值

江湖小虾

昨天 20:25 楼主 显示全部楼层
Pursuit 发表于 2026-4-14 15:30
我的8100也会时不时死机

也是这个主板吗?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则