设备环境:物理机 PowerEdge R730XD
BUG现象:设备使用一段时间后,完全卡死。
出现频率:必现
联系方式:飞牛fnOS粉丝群611(清夏晚风)
补充信息:安装过社区的nvidia驱动,第一次卡死在高强度创建、优化存储池,第二次卡死相册在使用显卡进行人脸识别。显卡在裙晖使用正常,不会出现系统卡死问题,暂未测试拆除显卡运行。
iDRAC日志:

SSH:
root@R730XD-FNOS:~# lspci -vvv | grep -i "80:02.0" -A10
80:02.0 PCI bridge: Intel Corporation Xeon E7 v4/Xeon E5 v4/Xeon E3 v4/Xeon D PCI Express Root Port 2 (rev 01) (prog-if 00 [Normal decode])
DeviceName: SLOT 4
Subsystem: Intel Corporation Xeon E7 v4/Xeon E5 v4/Xeon E3 v4/Xeon D PCI Express Root Port 2
Control: I/O+ Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR+ FastB2B- DisINTx+
Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
Latency: 0
Interrupt: pin A routed to IRQ 33
NUMA node: 1
Bus: primary=80, secondary=82, subordinate=82, sec-latency=0
I/O behind bridge: f000-0fff [disabled] [16-bit]
Memory behind bridge: c8000000-c8ffffff [size=16M] [32-bit]
root@R730XD-FNOS:~# lspci -D -nn | grep "^0000:82"
0000:82:00.0 3D controller [0302]: NVIDIA Corporation GP104GL [Tesla P4] [10de:1bb3] (rev a1)