收起左侧

nVidia 驱动问题

0
回复
16
查看
[ 复制链接 ]

1

主题

1

回帖

0

牛值

江湖小虾

先说明情况,内核升级之前自己装过几次显卡驱动,升级后的第一个版本正常使用580的驱动就没再管了,但是上周可能是灰度推送了1.1.30的系统,安装后发现显卡驱动损坏了

nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

出来这个报错,于是重装了官方的驱动,但是没用,这周回来就试一下论坛内 @怪盗基德 的老哥建议:进行“linux-modules-trim-6.18.18-trim 版本6.18.18-trim-473-2”的大小164M的更新,并卸载了nVidia驱动后,重启,再更新官方驱动,成功识别显卡。期间的卸载加识别驱动的任务是gpt负责,以下是我和gpt的对话留档。

已解决。

问题原因是 NVIDIA 驱动处于不完整/损坏状态:`nvidia-smi` 不存在,但重启后 `lsmod` 仍然能看到 NVIDIA 模块。

清理步骤:

`bash
sudo apt purge -y '*nvidia*' '*cuda*' '*libcuda*'
sudo apt autoremove -y --purge
sudo update-initramfs -u

1.1.30可能推送了 AMD GPU 相关包,也一并清理:

sudo apt purge -y amdgpu-dkms-firmware firmware-amd-graphics
sudo apt autoremove -y --purge
sudo update-initramfs -u

卸载当前已加载的 NVIDIA 模块:

sudo modprobe -r nvidia_drm
sudo modprobe -r nvidia_modeset
sudo modprobe -r nvidia_uvm
sudo modprobe -r nvidia

然后重启一次:

sudo reboot

重启后 NVIDIA 模块仍然会自动加载,于是检查模块来源:

modinfo nvidia | grep -E "filename|version|vermagic"

输出显示:

/lib/modules/6.18.18-trim/updates/trim/alternatives/nvidia-gpu/nvidia.ko
version: 580.142

所以没有手动删除内核,也没有手动删除 /lib/modules 文件,而是直接在官方应用商店/驱动管理里重新安装 NVIDIA 驱动。

安装完成后再次重启,nvidia-smi 正常:

NVIDIA-SMI 580.142
Driver Version: 580.142
CUDA Version: 13.0
GPU: NVIDIA GeForce GTX 1060 3GB

经验:如果 nvidia-smi 不存在,但 lsmod 还能看到 NVIDIA 模块,先用 modinfo nvidia 检查模块来源。这里通过官方应用商店安装匹配驱动后解决。


收藏
送赞
分享
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则