4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit ,性能达到开源 SOTA 。该模型总参数量为19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
 

一句话总结:Step1X-Edit,不只能“改图”,更能“听得懂、改得准、保得住”


昇腾首发支持该模型,开箱即用。该模型已上线魔乐社区,欢迎下载体验!

🔗模型链接:
https://modelers.cn/models/StepFun/Step1X-Edit-npu

01 模型介绍

Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemini 2.0 Flash。

Step1X-Edit 针对自然语言图像编辑任务,具备以下核心能力:

语义精准解析

支持自然语言描述的复杂组合指令,指令无需模板,能够灵活应对多轮、多任务编辑需求,同时支持对图像中文字进行识别、替换与重构;

身份一致性保持

编辑后能稳定保留人脸、姿态与身份特征,适用于虚拟人、电商模特、社交图像等高一致性场景;

高精度区域级控制

支持对指定区域进行文字、材质、色彩等定向编辑,保持图像风格统一,控制能力更精细。

Image

编辑任务效果对比:Step1X-Edit 实现最佳编辑效果与原图一致性

Step1X-Edit 采用 MLLM(Multimodal LLM)+ Diffusion 的解耦式架构,分别负责自然语言理解与高保真图像生成,相比现有图像编辑模型,该架构在指令泛化能力与图像可控性上更具优势。

为了支持广泛、复杂的图像编辑任务,Step1X-Edit 构建了业内规模领先的图像编辑训练数据集,共生成 2000 万条图文指令三元组,最终保留超过 100 万高质量样本。数据覆盖 11 类核心任务类型,包括文字替换、动作生成、风格迁移、背景调整等高频需求,任务类型分布均衡,指令语言自然真实。

接下来,让我们来体验一下模型的强大效果。

案例一:一句话P图

提示词:给小姐姐脖子上增加一条适合她的项链

原图 编辑后

Image

案例二:物体/背景/材质,统统都能换

提示词:将月饼替换为包子

原图 编辑后

Image

Image

案例三:玩转不同风格

提示词:以融合超现实主义、表现主义和天真艺术的风格重绘这幅图片,以近乎民俗的方式捕捉抽象人类情感和互动的简单性和复杂性。原始而有机的感觉,以孩子般的方式勾勒主体轮廓。采用原生艺术风格,使用对比和分层来创造混乱但有凝聚力的视觉冲击。俏皮地使用线条和颜色,主体元素既简单又富有象征意义。

原图 编辑后

Image

Image

接下来,手把手教你基于昇腾部署Step1X-Edit。

02 准备环境

1. 获取CANN安装包&环境准备

版本支持列表

软件包

版本

CANN

8.0.0

PTA

6.0.0

HDK

24.1.0

pytorch

2.3.1

Python

3.11

2. Pytorch & CANN安装

•Pytorch & Ascend Extension for PyTorch安装(https://www.hiascend.com/document/detail/zh/Pytorch/600/configandinstg/instg/insg_0001.html)》 以下是python3.11,pytorch2.3.1,PTA插件版本6.0.0,系统架构是AArch64,CANN版本是8.0.0的安装信息:

# 下载PyTorch安装包wget https://download.pytorch.org/whl/cpu/torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl# 下载torch_npu插件包wget https://gitee.com/ascend/pytorch/releases/download/v6.0.0-pytorch2.3.1/torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl# 安装命令pip3 install torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whlpip3 install torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

•软件包下载Atlas 800I A2:

https://www.hiascend.com/developer/download/commercial/result?module=cann 

•CANN包安装:

https://www.hiascend.com/document/detail/zh/canncommercial/800/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit 以下是CANN包中需要安装的run包信息:

# 增加软件包可执行权限,{version}表示软件版本号,{arch}表示CPU架构,{soc}表示昇腾AI处理器的版本。chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.runchmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run# 校验软件包安装文件的一致性和完整性./Ascend-cann-toolkit_{version}_linux-{arch}.run --check./Ascend-cann-kernels-{soc}_{version}_linux.run --check# 安装./Ascend-cann-toolkit_{version}_linux-{arch}.run --install./Ascend-cann-kernels-{soc}_{version}_linux.run --install # 设置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh

3. 安装依赖包

由于NPU下当前对Triton的inductor后端支持并不完备,请注释requirements.txt中的liger_kernel依赖信息,具体如下:

liger_kernel -> # liger_kernel

然后执行如下命令安装依赖:

pip install -r requirements.txt

注意:NPU上有单独的flash_attn算子实现,可以不用安装。

2.2 硬件要求

部署Qwen2.5-VL-32B-Instruct模型至少需要1台Atlas 800I A2(8*32G)。

03 下载模型

从魔乐社区或者HuggingFace下载模型权重。

魔乐社区(享加速下载):

https://modelers.cn/models/Modelers_Park/Step1X-Edit

Huggingface:https://huggingface.co/stepfun-ai/Step1X-Edit/tree/main

04 执行推理

获取Step1X-Edit的源码:

  git clone https://modelers.cn/StepFun/Step1X-Edit-npu.git

修改scripts/run_examples.sh种的model_path参数的值为模型下载的路径。

执行如下命令进行推理:

bash scripts/run_examples.sh

执行成功后,会在当前目录下生成2个文件夹,分别是output_cn和output_en.对应examples目录下2种prompt(中文和英文)。结果如下: 

Image

Prompt(中文):给这个女生的脖子上戴一个带有红宝石的吊坠

Image

Prompt(英文):Change the outerwear to be made of top-grain calfskin

欢迎体验

欢迎大家下载体验Step1X-Edit,也欢迎广大开发者在模型评论区留言交流!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐