收起左侧

随机死机,AI说是mdadm(软件RAID)造成的???

3
回复
48
查看
[ 复制链接 ]

6

主题

24

回帖

0

牛值

江湖小虾

2026-3-26 00:16:54 显示全部楼层 阅读模式
系统版本:X86

设备环境:物理机  CPU   i3-1215u  24g内存 500gnvme+1t ssd,系统1.1.23
BUG现象:随机的死机,时间可长可短,长的十几天,短的几个小时

出现频率:偶现

联系方式:403群-WJ

日志文件:内核日志
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:16,692296+08:00 /dev/sda: Can't open blockdev
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:14,375263+08:00 kauditd_printk_skb: 4 callbacks suppressed
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:13,932449+08:00 trim_trashbin_open
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:13,918095+08:00 zfs: module license taints kernel.
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:13,918069+08:00 Disabling lock debugging due to kernel taint
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:13,918062+08:00 zfs: module license 'CDDL' taints kernel.
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:13,895922+08:00 spl: loading out-of-tree module taints kernel.
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:06,517104+08:00 block device autoloading is deprecated and will be removed.
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:04,511812+08:00 ENERGY_PERF_BIAS: Set to 'normal', was 'performance'
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:04,500663+08:00 hpet_acpi_add: no address or irqs in _CRS
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:04,094728+08:00 trim-trashbin driver major=251,minor=0
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:04,094727+08:00 trim_trashbin_init
2026-03-25 23:58:21
WARN
[dmesg] 2026-03-25T23:31:03,883081+08:00 #1 #3
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:16,692297+08:00 /dev/sda: Can't open blockdev
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:14,375264+08:00 kauditd_printk_skb: 4 callbacks suppressed
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:13,932450+08:00 trim_trashbin_open
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:13,918096+08:00 zfs: module license taints kernel.
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:13,918070+08:00 Disabling lock debugging due to kernel taint
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:13,918063+08:00 zfs: module license 'CDDL' taints kernel.
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:13,895923+08:00 spl: loading out-of-tree module taints kernel.
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:06,517105+08:00 block device autoloading is deprecated and will be removed.
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:04,511813+08:00 ENERGY_PERF_BIAS: Set to 'normal', was 'performance'
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:04,500664+08:00 hpet_acpi_add: no address or irqs in _CRS
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:04,094729+08:00 trim-trashbin driver major=251,minor=0
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:04,094728+08:00 trim_trashbin_init
2026-03-25 23:53:11
WARN
[dmesg] 2026-03-25T23:31:03,883082+08:00 #1 #3

系统日志完全无反馈

以下是AI对死机分析
根据您提供的存储管理界面截图,我发现了问题的根源!​ 系统显示两个存储空间都是 "Basic"(基本模式),但底层却使用了 RAID1(单盘)​ 的配置。这是飞牛系统的设计特性导致的。
为什么系统会认为是RAID?飞牛系统的存储管理机制从截图可以看到:
  • 存储空间1:NVMe SSD (476.94 GB) - Basic模式
  • 存储空间2:SATA SSD (953.87 GB) - Basic模式

但是系统底层却将它们分别配置为:
  • md0:NVMe SSD的单盘RAID1阵列
  • md127:SATA SSD的单盘RAID1阵列

这是飞牛系统的设计选择
  • 即使选择"Basic"模式,飞牛系统也使用Linux的 mdadm(软件RAID)​ 来管理磁盘
  • 创建单盘RAID1阵列可能是为了:
    • 未来扩展性:方便后续添加第二块硬盘组成真正的RAID1
    • 统一管理:所有存储空间都通过mdadm管理,简化代码
    • 数据完整性:使用RAID超级块记录磁盘信息
    • 快照和备份:与飞牛的快照功能兼容


这个设计带来的问题
  • 复杂性增加:简单的Basic模式变成了RAID1(单盘)
  • 启动依赖:系统必须初始化mdadm和RAID阵列才能挂载存储
  • 故障敏感:如果RAID阵列中的单个磁盘有问题,整个阵列会降级
  • 服务依赖:系统服务可能依赖RAID设备名(如/dev/md0)而不是原始磁盘

为什么服务会依赖/dev/sda?因为SATA SSD(/dev/sda)是md127阵列的唯一成员。当系统启动时:
  • 需要组装md127RAID阵列
  • 需要访问/dev/sda来读取RAID超级块
  • 如果/dev/sda访问失败,md127无法启动
  • 依赖md127的服务(或通过md127挂载的/vol2)会失败


我想知道我这个死机的问题如何解决???
收藏
送赞
分享

277

主题

1万

回帖

0

牛值

管理员

fnOS1.0上线纪念勋章

从目前提供的日志看,暂时还不能直接判断是 mdadm 导致的死机。Basic 模式底层使用相关存储管理机制本身并不等于异常,仅根据当前提供的信息比较可能有影响的是这一条/dev/sda: Can't open blockdev,说明系统在访问当时这块硬盘有存在异常;可以先排查一下这块硬盘和个别硬件兼容或电源管理的情况,补充一下更完整的日志我们看看有没有线索
3月31日晚正好死机了,我上传了1个附件,里面有31号的日志,和4月1日重启飞牛发日志,我也交个AI看了下,也是先怀疑/dev/sda: Can't open blockdev,但硬盘检测没问题 [attachimg]101287[/attachimg]这是AI最终的结  详情 回复
3 天前

6

主题

24

回帖

0

牛值

江湖小虾

3 天前 楼主 显示全部楼层
飞牛技术同学 发表于 2026-3-31 18:55
从目前提供的日志看,暂时还不能直接判断是 mdadm 导致的死机。Basic 模式底层使用相关存储管理机制本身并 ...

3月31日晚正好死机了,我上传了1个附件,里面有31号的日志,和4月1日重启飞牛发日志,我也交个AI看了下,也是先怀疑[backcolor=var(--cb-markdown-code-bg-color, rgba(255, 255, 255, .1))]/dev/sda: Can't open blockdev,但硬盘检测没问题

这是AI最终的结论,说我用了2根频率不同的内存,一根品牌一根杂牌,推测是内存的问题


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
那建议先检测一下内存或者尝试只使用单根内存观察一下是否还有这种情况  详情 回复
3 天前

277

主题

1万

回帖

0

牛值

管理员

fnOS1.0上线纪念勋章

115629731 发表于 2026-4-1 10:08
3月31日晚正好死机了,我上传了1个附件,里面有31号的日志,和4月1日重启飞牛发日志,我也交个AI看了下, ...

那建议先检测一下内存或者尝试只使用单根内存观察一下是否还有这种情况
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则