收起左侧

resmon_service[801903]: segfault

6
回复
116
查看
[ 复制链接 ]

1

主题

5

回帖

0

牛值

江湖小虾

2026-4-27 13:09:04 显示全部楼层 阅读模式

系统版本:X86

设备环境:物理机。1.1.30

BUG现象:dmesg报错,AI分析了下应该是新版本软件BUG,每次启动完之后打开过资源管理就会出现

出现频率:必现

联系方式:xx

日志文件:

[108966.703442] resmon_service[910122]: segfault at 18 ip 00007f424baad099 sp 00007f422e7fa760 error 4 in libc.so.6[8f099,7f424ba44000+156000] likely on CPU 4 (core 4, socket 0)
[108966.703455] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c
[116224.940598] resmon_service[968472]: segfault at 18 ip 00007feb976ad099 sp 00007feb7b3fc760 error 4 in libc.so.6[8f099,7feb97644000+156000] likely on CPU 11 (core 3, socket 0)
[116224.940629] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c
[121685.340049] resmon_service[1012249]: segfault at 18 ip 00007f0e701cd099 sp 00007f0e53ffc760 error 4 in libc.so.6[8f099,7f0e70164000+156000] likely on CPU 2 (core 2, socket 0)
[121685.340061] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c
[123556.406869] resmon_service[1027460]: segfault at 18 ip 00007fb5c86ad099 sp 00007fb5ac3fc760 error 4 in libc.so.6[8f099,7fb5c8644000+156000] likely on CPU 3 (core 3, socket 0)
[123556.406882] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c
[130855.111856] resmon_service[1086261]: segfault at 18 ip 00007f0b8eead099 sp 00007f0b71bfa760 error 4 in libc.so.6[8f099,7f0b8ee44000+156000] likely on CPU 0 (core 0, socket 0)
[130855.111869] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c
[139476.432626] [trim-mounts-hash]'0'[000000004de636eb]'s top mountpoint dentry: run
[139476.432633] [trim-mounts-hash]dentry 'run' type: 0
[139576.074863] resmon_service[1157010]: segfault at 18 ip 00007f72dfaad099 sp 00007f72d1ecc760 error 4 in libc.so.6[8f099,7f72dfa44000+156000] likely on CPU 1 (core 1, socket 0)
[139576.074876] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c
[140002.822275] [trim-mounts-hash]'proc'[0000000004212417]'s top mountpoint dentry: run
[140002.822281] [trim-mounts-hash]dentry 'run' type: 0
[140193.851108] [trim-mounts-hash]'proc'[0000000004212417]'s top mountpoint dentry: run
[140193.851115] [trim-mounts-hash]dentry 'run' type: 0
[140319.477112] [trim-mounts-hash]'proc'[0000000004212417]'s top mountpoint dentry: run
[140319.477117] [trim-mounts-hash]dentry 'run' type: 0
[140373.852572] [trim-mounts-hash]'proc'[0000000004212417]'s top mountpoint dentry: run
[140373.852579] [trim-mounts-hash]dentry 'run' type: 0

收藏
送赞
分享
2026-4-28 15:55:58 显示全部楼层

感谢反馈!resmon_service 是资源监控相关服务,当前现象更像是资源管理页面触发的服务异常。信息有点少,可能去日志查看一下,在这个服务异常前面有运行其他服务吗?

升级到4.27晚上编译的版本之后确认症状已消失,可关单。  详情 回复
2026-4-28 19:44

1

主题

5

回帖

0

牛值

江湖小虾

2026-4-28 19:43:52 楼主 显示全部楼层

升级到最新小版本:[ 1393.083400] resmon_service[19016]: segfault at 18 ip 00007f408e3cd099 sp 00007f406fff8760 error 4 in libc.so.6[8f099,7f408e364000+156000] likely on CPU 4 (core 4, socket 0)
[ 1393.083416] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c

1

主题

5

回帖

0

牛值

江湖小虾

2026-4-28 19:44:07 楼主 显示全部楼层
飞牛运营同学 发表于 2026-4-28 15:55
感谢反馈!resmon_service 是资源监控相关服务,当前现象更像是资源管理页面触发的服务异常。信息有点少, ...

又出现了:[ 1393.083400] resmon_service[19016]: segfault at 18 ip 00007f408e3cd099 sp 00007f406fff8760 error 4 in libc.so.6[8f099,7f408e364000+156000] likely on CPU 4 (core 4, socket 0)
[ 1393.083416] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c

1

主题

5

回帖

0

牛值

江湖小虾

2026-4-28 19:53:10 楼主 显示全部楼层

又出现了

[ 1393.083400] resmon_service[19016]: segfault at 18 ip 00007f408e3cd099 sp 00007f406fff8760 error 4 in libc.so.6[8f099,7f408e364000+156000] likely on CPU 4 (core 4, socket 0)
[ 1393.083416] Code: d0 b8 10 00 00 00 c3 66 2e 0f 1f 84 00 00 00 00 00 c7 47 08 01 00 00 00 eb cd 0f 1f 80 00 00 00 00 55 49 89 f8 53 48 83 ec 08 <8b> 57 18 64 8b 04 25 d0 02 00 00 39 c2 0f 84 bc 00 00 00 8b 47 1c

1

主题

5

回帖

0

牛值

江湖小虾

2026-4-28 19:56:43 楼主 显示全部楼层

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

1

主题

5

回帖

0

牛值

江湖小虾

7 天前 楼主 显示全部楼层

✦ 成功捕获了 core dump 文件,现在需要用 gdb 来分析崩溃原因。

✦ 成功捕获到 core dump 了!有两个文件:

 - /core.resmon_service.1527995.1777558693 — 400MB(第一次崩溃)
 - /core.resmon_service.1548054.1777558813 — 398MB(第二次崩溃)

现在开始分析。先检查有没有 gdb,然后用 gdb 加载二进制和 core dump:

╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
** ✓ Shell which gdb 2>/dev/null && gdb --version | head -1 (检查 gdb 是否已安装) **
** **
** Command exited with code: 1 **
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯

✦ gdb 未安装,需要先安装它才能分析 core dump。

╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
** ✓ Shell apt-get update -qq && apt-get install -y -qq gdb 2>&1 | tail -3 [timeout: 120000ms] (安装 gdb 用于 core dump 分析) **
** **
** Processing triggers for libc-bin (2.36-9+deb12u13) ... **
** ldconfig: /usr/local/lib/libzmq.so.5 is not a symbolic link **
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯

✦ gdb 安装成功,现在用它加载二进制文件和 core dump 来分析崩溃原因。

╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
** ✓ Shell gdb -batch -ex "bt" -ex "info registers" -ex "list" /usr/trim/bin/resmon_service /core.resmon_service.1527995.1777558693 2>&1 | head -80 [time… **
** **
** ... first 75 lines hidden ... **
** rip 0x7f09eaead099 0x7f09eaead099 <___pthread_rwlock_unlock+9> **
** eflags 0x10206 [ PF IF RF ] **
** cs 0x33 51 **
** ss 0x2b 43 **
** ds 0x0 0 **
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯

✦ core dump 分析结果出来了,调用栈清楚地显示了崩溃链路,需要整理结论给用户并提出后续建议。

✦ 找到崩溃根因了!

崩溃分析结果

调用栈:

 1 #0 ___pthread_rwlock_unlock (rwlock=0x0)     ← 对空指针解锁
 2 #1 ?? () from /usr/lib/x86_64-linux-gnu/libnvidia-ml.so
 3 #2 nvmlDeviceGetMemoryInfo () from libnvidia-ml.so
 4 #3 NvidiaGpuInfo::UpdateRamInfo()            ← resmon_service 中的函数
 5 #4 GpuReporter::RunSlaveThreadInternal()      ← GPU 监控线程

根因:resmon_service 的 GPU 监控线程(GpuReporter::RunSlaveThreadInternal)调用 NVIDIA ML 库(libnvidia-ml.so)获取显存信息(nvmlDeviceGetMemoryInfo),而
 NVIDIA ML 库内部对一个空 rwlock 执行 pthread_rwlock_unlock,导致段错误。

这是一个 NVIDIA 驱动/ML 库的 bug,或者 resmon_service 在使用 NVIDIA ML 之前没有正确初始化(例如 GPU 设备不可用、驱动未加载等)。日志中 "can not probe trim
 dev" 可能与此相关。

修复方向:
 1. 检查 NVIDIA 驱动是否正常加载(nvidia-smi)
 2. 联系 Trim 厂商修复 resmon_service 中对 NVIDIA ML 的调用(需处理初始化失败的情况)
 3. 临时方案:如果没有 NVIDIA GPU 需求,可以禁用 GPU 监控相关代码或配置

需要我进一步检查 NVIDIA 驱动状态吗?

检查一下英伟达驱动状态

✦ 用户让我检查 NVIDIA 驱动状态,我来运行 nvidia-smi 和相关命令查看驱动状态。

╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
** ✓ Shell nvidia-smi 2>&1 (查看 NVIDIA GPU 和驱动状态) **
** **
** ... first 17 lines hidden ... **
** |=========================================================================================| **
** | 0 N/A N/A 1856 C ...irui/comfyui/.venv/bin/python 86MiB | **
** | 0 N/A N/A 6619 C /app/llama-server 15096MiB | **
** | 0 N/A N/A 1552620 C trim.face_det 514MiB | **
** +-----------------------------------------------------------------------------------------+ **
** **
** ✓ Shell lsmod | grep nvidia (查看已加载的 NVIDIA 内核模块) **
** **
** nvidia_uvm 2760704 8 **
** nvidia_drm 122880 0 **
** nvidia_modeset 1875968 1 nvidia_drm **
** nvidia 110915584 121 nvidia_uvm,nvidia_drm,nvidia_modeset **
** drm_ttm_helper 16384 1 nvidia_drm **
** video 81920 1 nvidia_modeset **
** **
** ✓ Shell dpkg -l | grep nvidia 2>/dev/null | head -20 (查看已安装的 NVIDIA 相关包) **
** **
** ii libnvidia-container-tools 1.18.2-1 amd64 NVIDIA container runtime library (command-line **
** tools) **
** ii libnvidia-container1:amd64 1.18.2-1 amd64 NVIDIA container runtime library **
** ii nvidia-container-toolkit 1.18.2-1 amd64 NVIDIA Container toolkit **
** ii nvidia-container-toolkit-base 1.18.2-1 amd64 NVIDIA Container Toolkit Base **
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯

✦ NVIDIA 驱动和 GPU 状态都正常,那崩溃原因应该是 libnvidia-ml.so 内部的竞争条件或资源访问问题。让我检查 nvml 初始化相关的情况。

✦ NVIDIA 驱动和 GPU 状态都正常。让我进一步检查 NVML 初始化情况:

╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
** ✓ Shell nvidia-smi nvml --help 2>&1 | head -5; echo "---"; ls -la /usr/lib/x86_64-linux-gnu/libnvidia-ml.so* 2>/dev/null (查看 NVML 库版本信息) **
** **
** ERROR: Option nvml is not valid for this command. Please run 'nvidia-smi -h' for help. **
** **
** --- **
** lrwxrwxrwx 1 root root 17 Apr 25 21:49 /usr/lib/x86_64-linux-gnu/libnvidia-ml.so -> libnvidia-ml.so.1 **
** lrwxrwxrwx 1 root root 23 Apr 25 21:49 /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1 -> libnvidia-ml.so.580.142 **
** -rwxr-xr-x 1 root root 2283608 Apr 25 21:49 /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.580.142 **
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯

✦ NVIDIA驱动和GPU都正常,让我再看看core dump中更多细节,特别是nvmlDeviceGetMemoryInfo调用时的参数和NvidiaGpuInfo对象状态。

╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
** ✓ Shell gdb -batch -ex "thread apply all bt 1" /usr/trim/bin/resmon_service /core.resmon_service.1527995.1777558693 2>&1 | tail -80 [timeout: 60000ms]… **
** **
** ... first 76 lines hidden ... **
** #0 0x00007f09eaeed545 in __GI___clock_nanosleep (clock_id=clock_id@entry=0, flags=flags@entry=0, req=0x7f09e93d17e0, rem=0x7f09e93d17e0) at ../sysde **
** ps/unix/sysv/linux/clock_nanosleep.c:48 **
** **
** Thread 1 (Thread 0x7f09de32f6c0 (LWP 1547723)): **
** #0 0x00007f09eaead099 in ___pthread_rwlock_unlock (rwlock=0x0) at ./nptl/pthread_rwlock_unlock.c:38 **
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯

✦ NVIDIA 驱动和 GPU 状态都正常,让我进一步分析 core dump 中 GPU 相关线程的详细调用栈来确认问题根源。

✦ 总结分析

NVIDIA 驱动和 GPU 状态完全正常:
 - 驱动版本:580.142,CUDA 13.0
 - GPU:NVIDIA RTX 2000 Ada,显存 16GB(已用 ~15GB)
 - 内核模块全部加载:nvidia, nvidia_uvm, nvidia_modeset, nvidia_drm
 - 有多个进程正在使用 GPU(llama-server、python、trim.face_det)

崩溃根因确认:

崩溃线程(Thread 1)是 GpuReporter::RunSlaveThreadInternal 派生的 GPU 监控线程,在调用 nvmlDeviceGetMemoryInfo() 时,NVIDIA ML 库内部对一个 空指针
`rwlock=0x0` 执行解锁操作,导致 segfault。

这很可能是 NVIDIA 驱动 580.142 中 `libnvidia-ml.so` 的一个 bug,在特定竞争条件下(可能与 GPU 高负载、MIG 模式、或进程切换有关)触发了内部的空指针解引用。

建议方案:
 1. 升级/降级 NVIDIA 驱动 到更稳定的版本
 2. 联系 Trim 厂商,让他们在 NvidiaGpuInfo::UpdateRamInfo() 中增加 NVML 调用失败处理
 3. 临时方案:如果不需要 GPU 监控功能,可以尝试禁用 resmon_service 的 GPU 相关配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则