BUG:pytorch测试模型时结果为nan或全0

pytorch模型推理/卷积操作出现全0或全nan

飘飘飄飘

1808人浏览 · 2022-11-03 10:38:58

飘飘飄飘 · 2022-11-03 10:38:58 发布

代码片段

import torch
import clip
from PIL import Image

# device = "cpu" 运行正常
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)

with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    
    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

print("Label probs:", probs)  # prints: [[0.9927937  0.00421068 0.00299572]]

DEBUG过程

在运行CLIP实例代码时，发现image_feature为全0.

调试后发现：输入数据没问题，模型参数加载也没问题，但是一旦使用cnv2D卷积操作feature map就变为全0。但我随便初始化了一个卷积核发现是可以运行的。

将数据改到cpu设备上运行，结果正常，推测可能是cuda的问题。

解决方法

重新安装pytorch以及对应的cudatoolkit，注意用nvidia-smi查看的是CUDA最大支持版本，而pytorch安装应该与nvcc -V中的版本对应。
在这里插入图片描述

注意，可以使用conda给不同的虚拟环境安装对应的cudatoolkit（cudatoolkit是cuda的一个子集，足够pytorch使用），pytorch运行时优先使用对应环境下的cudatoolkit，这样方便修改cuda版本。

最后我是用的命令为：

conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

工业物联网时序数据库选型指南：Apache IoTDB 技术架构与实战解析

魔乐社区

面向未来的工业大数据架构：时序数据库（TSDB）选型避坑指南和国产化思考

魔乐社区

宇树G1-D：人形机器人下一步方向！

魔乐社区

所有评论(0)

查看更多评论

飘飘飄飘

@qq_53191711

已为社区贡献1条内容