告别画图时的文字乱码！基于昇腾玩转文生图模型Qwen-Image

Qwen-Image已上线魔乐社区，欢迎下载体验！

魔乐社区

1037人浏览 · 2025-08-21 14:16:40

魔乐社区 · 2025-08-21 14:16:40 发布

8月初，通义千问开源了Qwen-Image，一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。

Qwen-Image的主要特性包括：

• 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。

• 一致性的图像编辑能力: 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性。

• 强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得SOTA，是一个强大的图像生成基础模型。

MindIE支持该模型的部署推理，适配模型已上线魔乐社区，欢迎广大开发者下载体验！

🔗模型链接：https://modelers.cn/models/MindIE/Qwen-Image

模型介绍

Qwen-Image在所有基准测试中均取得了最先进的性能，展现出其在图像生成与图像编辑方面的强大能力。Qwen-Image的突出能力之一是能够在不同场景中实现高保真的文本渲染，特别是在中文文本渲染上，大幅领先现有的最先进模型。

除了文本处理，Qwen-Image也会在通用图像生成方面也表现出色，支持多种艺术风格。从照片级写实场景到印象派绘画，从动漫风格到极简设计，该模型能够灵活响应各种创意提示，成为艺术家、设计师和故事创作者的多功能工具。

在图像编辑方面，Qwen-Image支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作。这让普通用户也能轻松实现专业级的图像编辑。

接下来, 手把手教你基于MindIE在魔乐社区下载和部署模型该模型。

准备运行环境

表1 版本配套表

配套	版本
Python	3.10 or 3.11
torch	2.1.0

1. 获取CANN&MindIE安装包&环境准备

设备支持

Atlas 800I/800T A2(8*64G)推理设备：支持的卡数最小为1

Atlas 800I/800T A2(8*64G)

https://www.hiascend.com/developer/download/community/result?module=pt+ie+cann&product=4&model=32

环境准备指导

https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/80RC2alpha002/softwareinst/instg/instg_0001.html

2. CANN安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构，{soc}表示昇腾AI处理器的版本。chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.runchmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run# 校验软件包安装文件的一致性和完整性./Ascend-cann-toolkit_{version}_linux-{arch}.run --check./Ascend-cann-kernels-{soc}_{version}_linux.run --check# 安装./Ascend-cann-toolkit_{version}_linux-{arch}.run --install./Ascend-cann-kernels-{soc}_{version}_linux.run --install
# 设置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh

bash

3. MindIE安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构。chmod +x ./Ascend-mindie_${version}_linux-${arch}.run./Ascend-mindie_${version}_linux-${arch}.run --check
# 方式一：默认路径安装./Ascend-mindie_${version}_linux-${arch}.run --install# 设置环境变量cd /usr/local/Ascend/mindie && source set_env.sh
# 方式二：指定路径安装./Ascend-mindie_${version}_linux-${arch}.run --install-path=${AieInstallPath}# 设置环境变量cd${AieInstallPath}/mindie && source set_env.s

bash

4. Torch_npu安装

下载 pytorch_v{pytorchversion}_py{pythonversion}.tar.gz

tar -xzvf pytorch_v{pytorchversion}_py{pythonversion}.tar.gz# 解压后，会有whl包pip install torch_npu-{pytorchversion}.xxxx.{arch}.wh

bash

下载权重

🔗Qwen-Image权重链接:

https://modelers.cn/models/Modelers_Park/Qwen-Image

Qwen-Image使用

（1）推理前准备

# 1. 下载代码git clone https://modelers.cn/MindIE/Qwen-Image.git && cd Qwen-Image
# 2. python相关依赖安装pip install git+https://github.com/huggingface/diffuserspip install transformers==4.52.4
# 3. 用 Python 获取 diffusers 的安装目录DIFFUSERS_PATH=$(python -c "import diffusers; import os; print(os.path.dirname(diffusers.__file__))")
# 4. 替换pipeline_qwenimage文件cp -r pipeline_qwenimage.py "$DIFFUSERS_PATH/pipelines/qwenimage/pipeline_qwenimage.py"
# 5. 替换transformer_qwenimage文件cp -r transformer_qwenimage.py "$DIFFUSERS_PATH/models/transformers/transformer_qwenimage.

bash

（2）Qwen-Image推理

单卡性能测试

• 等价优化

执行命令：

export ROPE_FUSE=1export ADALN_FUSE=1python run.py  \--model_name ./Qwen-Image  \--device_id 0  \--aspect_ratio "16:9"  \--num_inference_steps 50  \--prompt_file "prompts.txt"

bash

参数说明：

• model_name: 权重路径

• device_id: 执行模型推理的芯片id

• aspect_ratio: 宽高比，默认值为"16:9", 可选值为：{"1:1", "16:9", "9:16", "4:3", "3:4", "3:2", "2:3"}

• num_inference_steps: 迭代步数

• prompt_file: 文本提示词所在路径

• prompt_lang：设置提示词所使用的语言，"en"表示英文，"zh"表示中文

• 算法优化

执行命令：

export ROPE_FUSE=1export ADALN_FUSE=1export COND_CACHE=1export UNCOND_CACHE=1python run.py  \--model_name ./Qwen-Image  \--device_id 0  \--aspect_ratio "16:9"  \--num_inference_steps 50  \--prompt_file "prompts.txt"

bash

参数说明：

• model_name: 权重路径

• device_id: 执行模型推理的芯片id

• aspect_ratio: 宽高比，默认值为"16:9", 可选值为：{"1:1", "16:9", "9:16", "4:3", "3:4", "3:2", "2:3"}

• num_inference_steps: 迭代步数

• prompt_file: 文本提示词所在路径

• prompt_lang：设置提示词所使用的语言，"en"表示英文，"zh"表示中文

推理结果参考

Atlas 800I A2(1*64G) 64核(arm)性能数据（不使用cache算法加速）

Atlas 800I A2(1*64G) 64核(arm)性能数据（使用cache算法加速）

欢迎体验

欢迎大家下载体验Qwen-Image。如您在使用模型的过程中，发现任何问题（包括但不限于功能问题、合规问题），请在模型的讨论区提交issue，我们将及时审视并解答。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。