图像分类--预训练模型预测

无盐薯片

403人浏览 · 2023-01-19 19:22:15

无盐薯片 · 2023-01-19 19:22:15 发布

预训练模型预测

图像分类--预训练模型预测

预训练模型预测
代码流程
- 1.引入库
- 2.预训练模型使用

代码流程

使用百度爬取的图片微调pytorch的预训练resnet模型。在0.13版本后预训练模型中取消了参数pretrain，使用参数weights进行取代。该改进主要由于新版pytorch预训练模型可以选择不同的最优参数组合。

1.引入库

import os
import cv2
import time
import wandb
import torch
import warnings
import numpy as np
import pandas as pd
from tqdm import tqdm
from PIL import Image
import torch.nn as nn
import torch.optim as optim
from torchvision import models
import matplotlib.pyplot as plt
import torch.nn.functional as F
from torchvision import datasets
from torchvision import transforms

2.预训练模型使用

使用默认第一版参数的pytorch预训练resnet18，输入单张图片（苦瓜）如图1，模型预测输出也为单张图片（59%为黄瓜）如图2。因此，若在使用预训练模型的前提下，期望实现对图片的细粒度分类，则需要通过模型微调等其他手段。

model = models.resnet18(weights=models.ResNet18_Weights.IMAGENET1K_V1)
model = model.eval()
model = model.to(device)
test_transform = transforms.Compose([transforms.Resize(256),
                                     transforms.CenterCrop(224),
                                     transforms.ToTensor(),
                                     transforms.Normalize(
                                         mean=[0.485, 0.456, 0.406],
                                         std=[0.229, 0.224, 0.225])
                                     ])
img_pil = Image.open(test_img_path)
input_img = test_transform(img_pil)
input_img = input_img.unsqueeze(0).to(device)
pred_logits = model(input_img)
pred_softmax = F.softmax(pred_logits, dim=1)  # 对 logit 分数做 softmax 运算
n = 10
top_n = torch.topk(pred_softmax, n)
pred_ids = top_n[1].cpu().detach().numpy().squeeze()
confs = top_n[0].cpu().detach().numpy().squeeze()
idx_to_labels = {}
for idx, row in df.iterrows():
    idx_to_labels[row['ID']] = [row['wordnet'], row['class']]
img_bgr = cv2.imread(test_img_path)
for i in range(n):
    class_name = idx_to_labels[pred_ids[i]][1]  # 获取类别名称
    confidence = confs[i] * 100  # 获取置信度
    text = '{:<15} {:>.4f}'.format(class_name, confidence)
    print(text)
    # !图片，添加的文字，左上角坐标，字体，字号，bgr颜色，线宽
    img_bgr = cv2.putText(img_bgr, text, (25, 50 + 40 * i), cv2.FONT_HERSHEY_SIMPLEX, 1.25, (0, 0, 255), 3)
cv2.imwrite('img_pred.jpg', img_bgr)
img_pred = Image.open('img_pred.jpg')

图1 输入原图

图2 预测输出

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

pry-rails源码探秘：Rails控制台增强插件的实现原理

pry-rails是一款为Rails >= 3应用提供Pry控制台支持的增强插件，它通过替换默认的IRB控制台，为开发者带来更强大的交互式编程体验。本文将深入剖析pry-rails的实现原理，帮助开发者理解其工作机制和核心功能。## Railtie：Rails集成的核心pry-rails的核心集成逻辑位于[lib/pry-rails/railtie.rb](https://link.git

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came