华为云上notebook用GPU训练出现报错:RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED
·
因为深度学习实验需要用到GPU训练,本机配置不行,就用发放的代金券在华为云上跑,配置了pytorch1.8的notebook,准备运行。但是遇到了这个报错,最初指向的是train()中的out = model(images):

参考了网上很多资料,如果本机上出现该问题可能是版本不匹配、输入维度出错、忘记加.cuda()等。【参考这篇博客】由于太过相信默认配置,觉得华为云的提供的配置总不会有问题,于是一直在找程序中可能的错误,调了三四个小时,一无所获。
然后我尝试在CPU版本下跑,发现是可以运行的,只是速度特别特别慢。然后我开始怀疑是不是真的为版本的问题,然后重新创建了一个notebook,把pytorch1.8换成了pytorch1.4-cuda10.1-cudnn7-ubuntu18.04环境,直接就能跑了……
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)