此外,model_dir路径下还保存了只训练仅一次的ckpt模型。

原因:我的是RTX3070 ,有8G的显存 但还是不够

在启动模型前执行以下命令监测显存使用情况,看到显存使用率突然飙升 直到Killed!

watch -n 2 nvidia-smi  # 2表示每两秒钟刷新显示一次

 解决:

①设置batch_size=1        #尽量设小点,但我还是不行

②切割图片        # dota数据集的特点了,单张图片较大

切割方式:

git clone https://github.com/hukaixuan19970627/DOTA_devkit_YOLO.git

        用项目里的ImageSpilt.py切割(我的参数设置subsize=512, gap=196, 还有两个path)

最后感谢liucui和以下参考的灵感,解决了一下午的难题!

Tensorflow刚开始训练killed bug解决方案_RanCh.Wong-CSDN博客

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐