设备环境:物理机(1 * NVMe as rootfs,2 * HDD RAID0,1 * SATA SSD)
BUG现象:见下
出现频率:偶现
联系方式:niuxuewei97@gmail.com
日志文件:已经重启,未捕获
从监控上可以看到 iowait 持续飙高,但是并未找到 root cause。尝试过关闭 docker service、手动 kill trim ai_manager 和 photos 两个应用,均无效果,在网页中也关闭了 NFS、WebDAV、FTP 和 SMB 共享服务,但问题并未解决。

从 top 来看 wa 占用 8.3,本机共 12 cores,所以有一个 core 被 iowait 打满。
$ top
%Cpu(s): 0.1 us, 0.3 sy, 0.0 ni, 91.3 id, 8.3 wa, 0.0 hi, 0.0 si, 0.0 st
使用 sar 统计 CPU 状态,能看到 cpu11 的 iowait 打满
$ sudo sar -P ALL 1 3