【FreedomMan原创】本地离线部署通义千问2-VL多模态大模型推理【图生文】

本地离线部署通义千问2-VL多模态大模型推理【图生文】

woaichinaidiao

1136人浏览 · 2024-11-19 09:56:55

woaichinaidiao · 2024-11-19 09:56:55 发布

开发环境、工具

windows10 专业版
idea2020.1.4、anaconda3、python3.11.10

机器配置

I5-1240P、16GRAM

模型名称

通义千问 Qwen/Qwen2-VL-2B-Instruct-GPTQ-Int8

代码调用示例

本机无cudn显卡，使用cpu推理调用

from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

# 指定本地模型路径
model_dir = 'D:/work/program/pytorch_models/Qwen/Qwen2-VL-2B-Instruct-GPTQ-Int8'

# 加载模型
model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_dir,
    torch_dtype=torch.float32,  # 使用 float32 数据类型
    device_map="cpu"  # 使用 CPU
)

# 加载处理器
processor = AutoProcessor.from_pretrained(model_dir)

# 输入消息
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "file://D:\\work\\code\\clark\\gitee\\py_llm\\output\\result2.png",
            },
            {"type": "text", "text": "描述一下这张图片"},
        ],
    }
]

# 准备推理
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)

# 将输入数据移动到 CPU
inputs = inputs.to("cpu")

# 推理：生成输出
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

执行完成输出结果

生成结果

['这张图片展示了一辆红色的汽车在沙漠中行驶。背景是广阔的沙漠景观，地平线上有几座沙丘。天空呈现出淡黄色，表明可能是清晨或傍晚。汽车的尾灯和后视镜清晰可见，显示出它正在行驶。整个场景给人一种孤独和荒凉的感觉，仿佛汽车正在穿越一个无人的沙漠地带。']

工程代码

https://gitee.com/clark2020/py_llm.git

欢迎讨论交流

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。