docker run使用--gpus all报错
报错如下:
docker run -it --gpus all nvcr.io/nvidia/pytorch:24.08-py3 /bin/bash
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].

处理前宿主机GPU节点必须识别显卡:
加载NVIDIA驱动nvidia-smi

解决如下:
缺少依赖nvidia-container-toolkit(需yum安装)
先添加nvidia-container-toolkit源:
yum config-manager --add-repo https://nvidia.github.io/nvidia-docker/centos8/nvidia-docker.repo

查看刚新加源:
cat nvidia-docker.repo


安装nvidia-container-toolkit:
yum install nvidia-container-toolkit

[root@asc2-gn01 yum.repos.d]# cat /etc/docker/daemon.json
{
"runtimes": {
"nvidia": {
"path": "nvidia-container-runtime",
"runtimeArgs": []
}
},
"registry-mirrors": [
"https://docker.nju.edu.cn",
"https://mirror.baidubce.com",
"https://hub-mirror.c.163.com",
"https://docker.mirrors.ustc.edu.cn"
],
"data-root": "/gpfs/docker"
}
重启docker服务:
systemctl restart docker
![]()
进入docker的pytorch容器里,并携带可识别宿主机gpu显卡参数:
docker run -it --gpus all nvcr.io/nvidia/pytorch:24.08-py3 /bin/bash

验证可识别宿主机显卡
nvidia-smi

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)