ubuntu GPU服务器(带NVLink)更新显卡驱动 全流程(巨坑!!)
如果你使用的是大型的带NVLink的GPU服务器,例如H100\H20\A100等,就不要去学那些普通服务器或个人电脑的显卡驱动更新的教程,因为不一样!很容易导致更新后,nvidia-fabricmanager 的版本和驱动对不上,而且 apt-get 根本找不到对应的版本!
如果你使用的是大型的带NVLink的GPU服务器,例如H100\H20\A100等,就不要去学那些普通服务器或个人电脑的显卡驱动更新的教程,因为不一样!很容易导致更新后,nvidia-fabricmanager 的版本和驱动对不上,而且 apt-get 根本找不到对应的版本!
正确步骤:
1. 卸载原有驱动
apt-get --purge remove "*nvidia*" -y
2. 下载 Data Center 驱动
注意要下载Data Center 驱动而不是普通显卡驱动。去官网,选择想要的版本,按照官网步骤(如下图所示)做完(先安装base installer,然后driver installer,一般选择 apt-get install -y nvidia-open-570这一步),那么此时驱动安装完毕,但你会发现torch检测不到GPU
3. 下载 nvidia-fabricmanager
NVLink的服务器必须安装nvidia-fabricmanager,不然即使nvidia-smi可以看到GPU,使用torch时也检测不到GPU
安装的nvidia-fabricmanager必须和nvidia-driver版本号严格对应(比如上一步是570,这里也必须是570),安装前可以先检查可安装的版本是否和driver对得上:
apt-cache policy nvidia-fabricmanager-570
如果能找到正确版本,则安装它:
apt-get install -y nvidia-fabricmanager-570
最后重启
reboot
4. 开启nvidia-fabricmanager
重启后需要开启fabricmanager服务,参考此篇
sudo systemctl enable nvidia-fabricmanager # 配置Fabric Manager服务随实例开机自启动
sudo systemctl start nvidia-fabricmanager # 启动Fabric Manager服务
sudo systemctl status nvidia-fabricmanager # 查看Fabric Manager服务是否正常启动,回显active(running)表示启动成功
然后使用nvidia-smi检查显卡,使用 torch.cuda.is_available() 检测显卡,如果没问题则大功告成。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)