设备环境:(物理机/虚拟机、局域网/公网/反代/域名/P2P、系统/APP版本号、若为移动端/TV请提供手机/电视型号跟系统版本)
物理机 N150,系统版本1.1.8
出现频率:必现
联系方式:hundandadi
日志文件:(系统BUG进入日志应用-更多-系统诊断日志-上传到社区;APP端bug进入-设置-APP日志上报-上报后提供设备ID-)
https://pan.quark.cn/s/c31613c95380
附件过大无法上传可以通过飞牛外链分享或者百度网盘提供日志文件
BUG现象:
-
现象:监控中某单核(先是 cpu1,可能换核)长期 100% 利用率,但 htop 显示整体占用很低。
-
/proc/stat 显示单核 idle 计数卡死:
-
5 秒间隔两次输出 cpu1 121620 2 93172 4318403 344936 0 2264 0 0 0 → idle 字段未增长,user/system 在增长。
-
node_exporter 原始 metrics 同步复现:
-
node_cpu_seconds_total{cpu="1",mode="idle"} 固定为 ~43184.03,其他 mode(user/system/iowait)递增,导致 PromQL rate/irate 计算 idle≈0,显示 100% 忙。
-
PromQL 验证:rate(node_cpu_seconds_total{cpu="1",mode="idle"}[5m]) 返回 0,rate(...,mode!="idle") 合计接近 1。
-
htop 现场截图:总 CPU 仅个位数占用,负载平均值 ~0.3,说明实际调度正常。
-
热插拔尝试无效:
** echo 0 > /sys/devices/system/cpu/cpu1/online**
** sleep 1**
** echo 1 > /sys/devices/system/cpu/cpu1/online**
idle 仍不增长。* 内核版本:uname -a → Linux nas 6.12.18-trim #1000008 SMP PREEMPT_DYNAMIC ... x86_64 GNU/Linux
- 日志无异常:dmesg | grep -i cpu1、journalctl -k -b | grep -i cpu1 均空。
- node_exporter 版本:1.9.1(AppCenter 打包)。
- 机器核数:nproc=4。PromQL 公式按每核计算 (1 - avg by (instance,cpu) (rate(node_cpu_seconds_total{mode="idle"}[5m]))) * 100,理论正确。

