ComfyUI 文生图(Text-to-Image)

一、前言:什么是 ComfyUI & 文生图

ComfyUI 简介

ComfyUI 是一个开源的基于节点的可视化工作流工具,用于构建 Stable Diffusion 等扩散模型的图像生成流程。
它将生成流程拆分成节点,如模型加载、文本编码、采样器、潜空间处理和图像输出,使用户可以自由组合、调试、复用流程。

与传统“一体化界面 + 参数面板”的 AI 绘图工具相比,ComfyUI 提供了更高的灵活性和透明度:每一步都可以被观察和修改,这对于调试复杂流程和学习扩散模型原理非常有帮助。

文本到图像(Text-to-Image,文生图)

文生图是 AI 绘图最基础的流程:输入一段文字描述,模型生成对应图像。其核心原理是扩散模型在潜空间中逐步去噪,将随机噪声“引导”成符合提示的图像。

关键概念:

  • 正向提示词(Positive Prompt):希望出现在图像中的元素、风格或细节。
  • 负向提示词(Negative Prompt):希望避免出现的内容或缺陷。
  • 采样器 / 步数 / CFG:控制生成过程、质量、风格与稳定性。
  • 潜空间(Latent):模型内部的中间表示,图像内容在这里被“塑造”。

ComfyUI 将这些元素拆解为节点,通过可视化连线执行完整生成流程。


二、ComfyUI 文生图基础工作流解析

2.1 工作流核心节点

常见的文生图基础工作流包含以下节点:

节点 作用 关键参数说明
Load Checkpoint 加载模型(例如 SD1.5) 确认模型路径和格式正确(.ckpt 或 .safetensors)
CLIP Text Encode(正向) 将正向提示词编码为向量 支持英文关键词,括号加权 (keyword:1.2) 控制权重
CLIP Text Encode(负向) 将负向提示词编码为向量 用于抑制图像中的不希望元素,如模糊、畸形等
Empty Latent Image 提供初始噪声 latent 作为生成起点,可控制图像尺寸与随机种子
KSampler 采样器 / 去噪 包括步数、CFG、采样器类型、种子等,核心控制生成质量与风格
VAE Decode 潜空间 → 像素图 将 latent 转为实际图像
Save Image 输出或保存生成图像 可右键直接保存,或指定路径批量保存

2.2 节点连接流程

官方示例工作流通常按以下顺序连接:

  1. Load Checkpoint → CLIP Text Encode(正向 & 负向)
  2. CLIP Text Encode → KSampler
  3. Empty Latent Image → KSampler
  4. KSampler → VAE Decode → Save Image

节点颜色区分不同类型数据,执行时会依次传递。


三、第一次生成图像操作

  1. 选择模型:在 Load Checkpoint 节点中选择你要使用的 SD 模型。
  2. 输入提示词
    • 正向提示词:描述希望出现的元素、风格、细节等
    • 负向提示词:描述希望避免的缺陷或元素
  3. 设置生成参数
    • 步数(steps):控制去噪轮数,通常 25–40
    • CFG:提示词权重控制,建议 4.5–9
    • 种子(seed):固定可复现,-1 表示随机
    • 图像尺寸(Width/Height):如 512×512
  4. 执行工作流
    • 选中 KSampler 节点,点击 Queue 或按 Ctrl+Enter
  5. 查看输出
    • Save Image 节点生成图像
    • 可右键保存本地,或预览生成效果

每次生成图像,随机噪声和采样器的去噪过程会导致输出略有差异。固定种子可以复现同一张图。


四、节点参数与调优详解

4.1 CLIP Text Encode 节点

  • 正向提示词:决定图像的主体与风格
  • 负向提示词:避免模糊、畸形、杂乱等常见问题
  • 加权:使用 (keyword:1.2) 增加权重,(keyword:0.8) 降低权重

4.2 KSampler 节点

  • 采样器类型:Euler、DPM 等,不同算法生成风格不同
  • 步数(Steps):生成轮数,步数越多图像越精细
  • CFG:提示词权重对生成的影响
  • 种子:确定随机噪声初始状态,固定种子可复现

4.3 Empty Latent Image 节点

  • 提供潜空间噪声
  • 可自定义尺寸、批量数和随机种子

4.4 VAE Decode & Save Image 节点

  • VAE Decode:将潜空间 latent 转换为像素图
  • Save Image:支持右键保存或批量输出

五、提示词与生成技巧

5.1 提词技巧

  • 使用英文短语,避免冗长句子
  • 逗号分隔关键词,如 portrait, golden hour, masterpiece
  • 括号加权 (keyword:1.2) 提升重要性
  • 建议结构:主题 + 细节 + 风格 + 构图 + 光影
  • 常用正向提示词:masterpiece, best quality, 4k, ultra detailed
  • 常用负向提示词:low quality, blurry, deformed, extra fingers

5.2 参数调优思路

  • 步数太低 → 图像模糊
  • 步数太高 → 生成过拟合或显存消耗大
  • CFG 高 → 图像严格遵循提示词,随机性小
  • CFG 低 → 输出多样性高,可能偏离提示
  • 不同采样器可产生风格差异,可尝试切换观察

六、实用操作技巧

6.1 快速生成高质量图像

  1. 固定种子保证可复现
  2. 正负提示词明确分层:主体 + 风格 + 细节
  3. CFG 设置在 7 左右,平衡创意和提示遵循
  4. 步数 30–40,可保证细节清晰

6.2 提升图像风格控制

  • 尝试 (keyword:1.2) 加权控制重点元素
  • 拆分不同元素为多个正向提示词,分别加权
  • 调整采样器类型,例如 Euler A 风格锐利,DPM 风格柔和

6.3 修复常见问题

  • 畸形手指 / 多手指:在负向提示词中添加 extra fingers, deformed
  • 模糊 / 低质量:增加步数、添加 high quality, 4k
  • 色彩偏差:尝试在正向提示词中添加光影/氛围描述,如 golden hour, soft lighting

6.4 批量生成

  1. Empty Latent Image 或 KSampler 设置不同种子
  2. 使用循环或批量节点执行多次生成
  3. 自动保存到指定文件夹,便于筛选最佳图像

6.5 提高效率与显存利用

  • 降低分辨率或批量数,避免显存爆满
  • 使用社区提供的 Efficiency Nodes,减少节点数量,提升执行速度
  • 保存常用流程为子工作流,复用提示词和参数

七、示例 prompt 小案例

风格 正向提示词 负向提示词
动漫 anime style, 1girl with long pink hair, cherry blossom background, soft lighting, intricate details, masterpiece, best quality, 4k low quality, blurry, extra fingers, deformed
写实人像 (ultra realistic portrait:1.3), (elegant woman in crimson silk dress:1.2), full body, shallow depth of field, golden hour, skin texture details, film grain (deformed, cartoon, plastic skin, flat lighting, out of focus)
奇幻风格 fantasy elf, glowing magic, vibrant colors, long flowing hair, mystical forest, ethereal beauty, high detail blurry, low detail, unrealistic anatomy, cartoonish

将这些提示词输入 CLIP Text Encode 节点,即可快速生成不同风格的图像。通过调整权重、步数、CFG,可进一步优化效果。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐