1. 安装参考官方链接

https://developer.nvidia.com/cuda-downloads
选择自己对应的操作系统即可

1.1 从网页中保留的 centos7 cuda 11.8 安装命令
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda

2. 安装完成之后

执行nvidia-smi如果出现 Failed to initialize NVML: Driver/library version mismatch
(就是和原有驱动不兼容问题)

2.1 重启即可
2.2 不重启方案 (服务端不能轻易重启情况)
2.2.1 杀死使用GPU相关进程, 看到pid之后杀死
sudo yum install -y lsof
sudo lsof -n -w  /dev/nvidia*
2.2.2 删除已有mod
sudo rmmod nvidia

报错 rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
也就是 nvidia_modeset 和 nvidia_uvm 在使用, 将其也 rmmod
同时执行以下命令, 遇到什么模块说 in use, 将其 rmmod

sudo rmmod nvidia_modeset
sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm

再运行命令

sudo rmmod nvidia
sudo nvidia-smi
2.2.3

此时发现nvidia-smi执行慢, 运行如下命令, 开启维护GPU的一个守护进程

nvidia-persistenced --persistence-mode
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐