昇腾首发支持,阶跃星辰 “改图大师” Step1X-Edit开源并上线魔乐社区
阶跃星辰发布开源图像编辑大模型Step1X-Edit,该19B参数模型融合MLLM与DiT架构,具备语义精准解析、身份一致性保持和高精度区域级控制三大核心能力,支持11类图像编辑任务。该模型已上线魔乐社区并获昇腾平台首发支持,提供从环境配置到推理部署的完整方案,开发者可通过官方链接下载体验。案例展示显示其能精准执行"添加项链""替换物体""风格重绘"等复杂编辑指令。
4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit ,性能达到开源 SOTA 。该模型总参数量为19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
一句话总结:Step1X-Edit,不只能“改图”,更能“听得懂、改得准、保得住”。
昇腾首发支持该模型,开箱即用。该模型已上线魔乐社区,欢迎下载体验!
🔗模型链接:
https://modelers.cn/models/StepFun/Step1X-Edit-npu
01 模型介绍
Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemini 2.0 Flash。
Step1X-Edit 针对自然语言图像编辑任务,具备以下核心能力:
语义精准解析
支持自然语言描述的复杂组合指令,指令无需模板,能够灵活应对多轮、多任务编辑需求,同时支持对图像中文字进行识别、替换与重构;
身份一致性保持
编辑后能稳定保留人脸、姿态与身份特征,适用于虚拟人、电商模特、社交图像等高一致性场景;
高精度区域级控制
支持对指定区域进行文字、材质、色彩等定向编辑,保持图像风格统一,控制能力更精细。
编辑任务效果对比:Step1X-Edit 实现最佳编辑效果与原图一致性
Step1X-Edit 采用 MLLM(Multimodal LLM)+ Diffusion 的解耦式架构,分别负责自然语言理解与高保真图像生成,相比现有图像编辑模型,该架构在指令泛化能力与图像可控性上更具优势。
为了支持广泛、复杂的图像编辑任务,Step1X-Edit 构建了业内规模领先的图像编辑训练数据集,共生成 2000 万条图文指令三元组,最终保留超过 100 万高质量样本。数据覆盖 11 类核心任务类型,包括文字替换、动作生成、风格迁移、背景调整等高频需求,任务类型分布均衡,指令语言自然真实。
接下来,让我们来体验一下模型的强大效果。
案例一:一句话P图
提示词:给小姐姐脖子上增加一条适合她的项链
原图 | 编辑后 |
![]() |
|
案例二:物体/背景/材质,统统都能换
提示词:将月饼替换为包子
原图 | 编辑后 |
|
|
案例三:玩转不同风格
提示词:以融合超现实主义、表现主义和天真艺术的风格重绘这幅图片,以近乎民俗的方式捕捉抽象人类情感和互动的简单性和复杂性。原始而有机的感觉,以孩子般的方式勾勒主体轮廓。采用原生艺术风格,使用对比和分层来创造混乱但有凝聚力的视觉冲击。俏皮地使用线条和颜色,主体元素既简单又富有象征意义。
原图 | 编辑后 |
|
|
接下来,手把手教你基于昇腾部署Step1X-Edit。
02 准备环境
1. 获取CANN安装包&环境准备
版本支持列表
软件包 |
版本 |
CANN |
8.0.0 |
PTA |
6.0.0 |
HDK |
24.1.0 |
pytorch |
2.3.1 |
Python |
3.11 |
2. Pytorch & CANN安装
•Pytorch & Ascend Extension for PyTorch安装(https://www.hiascend.com/document/detail/zh/Pytorch/600/configandinstg/instg/insg_0001.html)》 以下是python3.11,pytorch2.3.1,PTA插件版本6.0.0,系统架构是AArch64,CANN版本是8.0.0的安装信息:
# 下载PyTorch安装包
wget https://download.pytorch.org/whl/cpu/torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
# 下载torch_npu插件包
wget https://gitee.com/ascend/pytorch/releases/download/v6.0.0-pytorch2.3.1/torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
# 安装命令
pip3 install torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
pip3 install torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
•软件包下载Atlas 800I A2:
https://www.hiascend.com/developer/download/commercial/result?module=cann
•CANN包安装:
https://www.hiascend.com/document/detail/zh/canncommercial/800/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit 以下是CANN包中需要安装的run包信息:
# 增加软件包可执行权限,{version}表示软件版本号,{arch}表示CPU架构,{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install
# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
3. 安装依赖包
由于NPU下当前对Triton的inductor后端支持并不完备,请注释requirements.txt中的liger_kernel依赖信息,具体如下:
liger_kernel -> # liger_kernel
然后执行如下命令安装依赖:
pip install -r requirements.txt
注意:NPU上有单独的flash_attn算子实现,可以不用安装。
2.2 硬件要求
部署Qwen2.5-VL-32B-Instruct模型至少需要1台Atlas 800I A2(8*32G)。
03 下载模型
从魔乐社区或者HuggingFace下载模型权重。
魔乐社区(享加速下载):
https://modelers.cn/models/Modelers_Park/Step1X-Edit
Huggingface:https://huggingface.co/stepfun-ai/Step1X-Edit/tree/main
04 执行推理
获取Step1X-Edit的源码:
git clone https://modelers.cn/StepFun/Step1X-Edit-npu.git
修改scripts/run_examples.sh种的model_path参数的值为模型下载的路径。
执行如下命令进行推理:
bash scripts/run_examples.sh
执行成功后,会在当前目录下生成2个文件夹,分别是output_cn和output_en.对应examples目录下2种prompt(中文和英文)。结果如下:
Prompt(中文):给这个女生的脖子上戴一个带有红宝石的吊坠
Prompt(英文):Change the outerwear to be made of top-grain calfskin
欢迎体验
欢迎大家下载体验Step1X-Edit,也欢迎广大开发者在模型评论区留言交流!

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)