大家好,我是二号小明。今天带来一篇关于 Qwen-Image + ComfyUI 快速生成高保真、高质量图文的实测体验分享。更有意思的是,我这次只用“普通打工人装备”在本地运行 Qwen-Image,过程可谓惊喜不断、体验非凡!

一、模型简介

众所周知,2025年8月5日凌晨,阿里发布了Qwen-Image 文生图开源大模型,该模型是一个 20B 参数 MMDiT(多模态扩散变换器)模型,根据 Apache 2.0 许可开源。也是通义千问系列首个图像生成基础模型。该模型在复杂文本渲染精准图像编辑方面取得了显著进展,实现了包括英语、中文在内的多种语言的高保真输出。
在这里插入图片描述

其模型的主要亮点:

  • 高保真呈现复杂的中文和英文文本——段落、小字、布局。

  • 多种风格和用例的多功能性能:插图、海报、幻灯片等。

二、配置ConfyUI相关内容以及 Qwen-Imgae Json WorkFlow

关于ComfyUI有不了解的同学可以私下自学一下,个人认为还是非常好操作的,并且也有一系列的教程,有需要我单独出一期也行,这里就不多做介绍。
官网地址:https://www.comfy.org/zh-cn/
在这里插入图片描述

  1. 工作流下载地址:
    https://raw.githubusercontent.com/Comfy-Org/workflow_templates/refs/heads/main/templates/image_qwen_image.json

  2. 导入到ComfyUI
    在导入 JSON WorkFlow时,ComfyUI会提示缺少模型,从而让我们下载。
    在这里插入图片描述
    在这里插入图片描述
    我们可以直接使用上面的下载方式直接下载。下载模型时,如果按照我们之前提到的ComfyUI安装方法设置模型软链接,文件会自动存储到指定磁盘(如D盘)。如果不进行映射设置,所有模型文件就会默认下载到C盘,这点需要特别注意。

当然除了这种下载方式以外,我们还可以通过链接直接下载模型,将下载好的模型,直接拷贝到对应的目录中即可。
在这里插入图片描述
Huggingface 中地址模型的详情,包括BF16和FP8两种精度。
在这里插入图片描述
模型下载链接:
Diffusion Model / 扩散模型qwen_image_fp8_e4m3fn.safetensors
Text Encoder 文本编码器qwen_2.5_vl_7b_fp8_scaled.safetensors
VAEqwen_image_vae.safetensors

模型目录大概如下所示:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_fp8_e4m3fn.safetensors
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors

三. 运行步骤

  • 加载模型文件

  • 在 Load Diffusion Model 节点中加载:qwen_image_fp8_e4m3fn.safetensors

  • 在 Load CLIP 节点中加载:qwen_2.5_vl_7b_fp8_scaled.safetensors

  • 在 Load VAE 节点中加载:qwen_image_vae.safetensors
    在这里插入图片描述

  1. 设置图像尺寸
  • 在 EmptySD3LatentImage 节点中配置所需的宽度和高度
    在这里插入图片描述
  1. 输入提示词
  • 在 CLIPText Encoder 中输入提示词(支持 英语、中文、韩语、日语、意大利语 等多语言)
    在这里插入图片描述
  1. 开始生成
  • 点击 “队列” 按钮,或按下 Ctrl + Enter 运行

在这里插入图片描述

四、可灵、即梦、Qwen-Image对比

我这里是把提示词做了修改(中、英混语):主要意思是李白在黄鹤楼中叼着烟,在吟诗作赋。提示词如下:

"A warm, golden-lit ancient tower interior in Tang dynasty style, in
the late afternoon, with soft sunlight filtering through carved wooden
lattice windows. The atmosphere is poetic, cinematic, and slightly
hazy from curling smoke. The colors are rich, full of gold, crimson,
jade green, and deep ink-black tones. Elegant carved pillars with
dragon motifs, silk banners flowing gently. Li Bai sits by a red
sandalwood table, dressed in flowing white robes with light blue
edges, holding a long-stemmed pipe, exhaling fragrant smoke while
gazing at a scroll of poetry. In the background, ink paintings, bronze
incense burners with thin trails of smoke, stacks of bamboo slips, and
a pot of warm wine on a small tray. Calligraphy on hanging scrolls
includes:“黄楼赋” “将进酒” “月下独酌” “早发白帝城” “夜泊牛渚怀古” “庐山谣” “登金陵凤凰台” “行路难”
“静夜思"The scene glows with a warm yellow ambience, all lanterns lit,
and faint mist drifting near the floor.”

(1)可灵2.0 生成的效果
在这里插入图片描述
(2)即梦生成的效果:
在这里插入图片描述
(3)在Qwen-Image ComfyUI 采用 fp8 精度生成的效果:
在这里插入图片描述
整体来说,通过同一个提示词,我用付费版的可灵和即梦生成的效果好像都不太符合我原本期望,反而使用Qwen-Image FP8量化过的模型,结合ComfyUI生成的效果会更好一些,而且画面整个清晰度、质感、渲染的环境都不错,这里还是需要大大的点赞!!!

五、资源消耗

(1)本地8G显存资源消耗情况:
在这里插入图片描述
(2)我个人电脑配置:
在这里插入图片描述
本地跑 Qwen-Image fp8精度的模型,平均需要:360s左右。其实对于一个只有8G显存的机器来说,已经算是可以了。毕竟我使用可灵付费版,生成也要60s左右。
(3)ComfyUI官方实测数据为:
在这里插入图片描述
因此,如果有条件的可以试下,跑下BF16的模型,对比一下效果,评论区也可以分享下。

通过上述的体验实测,总体感觉Qwen-Image 模型的生成能力以及质量还是不错的,毕竟以后可以本地免费使用高质量文生图的工具了,而且还可以批量制作,这对后续写文案、出图都比较有帮助!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐