今天早上本来打算重新训练一下模型,当我像往常一样输入训练命令的时候出问题了

[ /job:localhost/replica:0/task:0/device:CPU:0 ]

当我看到CPU的时候瞬间蒙了,我指定的是使用GPU为什么出现CPU被占满的错误,于是开始上网搜索,试了好多种方法,例如:

  1. 没有安装tensorflow-gpu、tensorflow-gpu版本没有和cuda相对应
  2. tensorflow比tensorflow-gpu的版本高,所以默认使用高版本

 这两个方法我都试过还是不行,于是我查看nvidia-smi是否可以打开,确实打开了,不过我发现一个问题CUDA Version:ERR

 这里没有cuda版本,于是我又输入了 nvcc -V查看了cuda发现没有问题又查看了nvidia驱动也没有问题,既然都没有问题那就用简单粗暴的方法重装。我开始重新装nvidia驱动,装完发现还是不能使用,接着我又重新安装了CUDA随后测试问题解决了。

原因:CUDA出了问题,卸载了重装就好。

 本篇博客仅用于分享博主个人方法,不喜勿喷!!!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐