昇腾首发支持，阶跃星辰 “改图大师” Step1X-Edit开源并上线魔乐社区

阶跃星辰发布开源图像编辑大模型Step1X-Edit，该19B参数模型融合MLLM与DiT架构，具备语义精准解析、身份一致性保持和高精度区域级控制三大核心能力，支持11类图像编辑任务。该模型已上线魔乐社区并获昇腾平台首发支持，提供从环境配置到推理部署的完整方案，开发者可通过官方链接下载体验。案例展示显示其能精准执行"添加项链""替换物体""风格重绘"等复杂编辑指令。

魔乐社区

469人浏览 · 2025-05-29 11:02:11

魔乐社区 · 2025-05-29 11:02:11 发布

4月27日，阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit ，性能达到开源 SOTA 。该模型总参数量为19B (7B MLLM + 12B DiT)，具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持11类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

一句话总结：Step1X-Edit，不只能“改图”，更能“听得懂、改得准、保得住”。

昇腾首发支持该模型，开箱即用。该模型已上线魔乐社区，欢迎下载体验！

🔗模型链接：
https://modelers.cn/models/StepFun/Step1X-Edit-npu

01 模型介绍

Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合，在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit-Bench 中，Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型，比肩 GPT-4o 与 Gemini 2.0 Flash。

Step1X-Edit 针对自然语言图像编辑任务，具备以下核心能力：

语义精准解析

支持自然语言描述的复杂组合指令，指令无需模板，能够灵活应对多轮、多任务编辑需求，同时支持对图像中文字进行识别、替换与重构；

身份一致性保持

编辑后能稳定保留人脸、姿态与身份特征，适用于虚拟人、电商模特、社交图像等高一致性场景；

高精度区域级控制

支持对指定区域进行文字、材质、色彩等定向编辑，保持图像风格统一，控制能力更精细。

编辑任务效果对比：Step1X-Edit 实现最佳编辑效果与原图一致性

Step1X-Edit 采用 MLLM（Multimodal LLM）+ Diffusion 的解耦式架构，分别负责自然语言理解与高保真图像生成，相比现有图像编辑模型，该架构在指令泛化能力与图像可控性上更具优势。

为了支持广泛、复杂的图像编辑任务，Step1X-Edit 构建了业内规模领先的图像编辑训练数据集，共生成 2000 万条图文指令三元组，最终保留超过 100 万高质量样本。数据覆盖 11 类核心任务类型，包括文字替换、动作生成、风格迁移、背景调整等高频需求，任务类型分布均衡，指令语言自然真实。

接下来，让我们来体验一下模型的强大效果。

案例一：一句话P图

提示词：给小姐姐脖子上增加一条适合她的项链

原图	编辑后

案例二：物体/背景/材质，统统都能换

提示词：将月饼替换为包子

原图	编辑后

案例三：玩转不同风格

提示词：以融合超现实主义、表现主义和天真艺术的风格重绘这幅图片，以近乎民俗的方式捕捉抽象人类情感和互动的简单性和复杂性。原始而有机的感觉，以孩子般的方式勾勒主体轮廓。采用原生艺术风格，使用对比和分层来创造混乱但有凝聚力的视觉冲击。俏皮地使用线条和颜色，主体元素既简单又富有象征意义。

原图	编辑后

接下来，手把手教你基于昇腾部署Step1X-Edit。

02 准备环境

1. 获取CANN安装包&环境准备

版本支持列表

软件包	版本
CANN	8.0.0
PTA	6.0.0
HDK	24.1.0
pytorch	2.3.1
Python	3.11

2. Pytorch & CANN安装

•Pytorch & Ascend Extension for PyTorch安装(https://www.hiascend.com/document/detail/zh/Pytorch/600/configandinstg/instg/insg_0001.html)》以下是python3.11，pytorch2.3.1，PTA插件版本6.0.0，系统架构是AArch64，CANN版本是8.0.0的安装信息：

# 下载PyTorch安装包wget https://download.pytorch.org/whl/cpu/torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl# 下载torch_npu插件包wget https://gitee.com/ascend/pytorch/releases/download/v6.0.0-pytorch2.3.1/torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl# 安装命令pip3 install torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whlpip3 install torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

•软件包下载Atlas 800I A2：

https://www.hiascend.com/developer/download/commercial/result?module=cann

•CANN包安装：

https://www.hiascend.com/document/detail/zh/canncommercial/800/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit 以下是CANN包中需要安装的run包信息：

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构，{soc}表示昇腾AI处理器的版本。chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.runchmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run# 校验软件包安装文件的一致性和完整性./Ascend-cann-toolkit_{version}_linux-{arch}.run --check./Ascend-cann-kernels-{soc}_{version}_linux.run --check# 安装./Ascend-cann-toolkit_{version}_linux-{arch}.run --install./Ascend-cann-kernels-{soc}_{version}_linux.run --install # 设置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh

3. 安装依赖包

由于NPU下当前对Triton的inductor后端支持并不完备，请注释requirements.txt中的liger_kernel依赖信息，具体如下：

liger_kernel -> # liger_kernel

然后执行如下命令安装依赖：

pip install -r requirements.txt

注意：NPU上有单独的flash_attn算子实现，可以不用安装。

2.2 硬件要求

部署Qwen2.5-VL-32B-Instruct模型至少需要1台Atlas 800I A2（8*32G）。

03 下载模型

从魔乐社区或者HuggingFace下载模型权重。

魔乐社区（享加速下载）：

https://modelers.cn/models/Modelers_Park/Step1X-Edit

Huggingface：https://huggingface.co/stepfun-ai/Step1X-Edit/tree/main

04 执行推理

获取Step1X-Edit的源码：

  git clone https://modelers.cn/StepFun/Step1X-Edit-npu.git

修改scripts/run_examples.sh种的model_path参数的值为模型下载的路径。

执行如下命令进行推理：

bash scripts/run_examples.sh

执行成功后，会在当前目录下生成2个文件夹，分别是output_cn和output_en．对应examples目录下2种prompt(中文和英文)。结果如下:

Prompt（中文）：给这个女生的脖子上戴一个带有红宝石的吊坠

Prompt（英文）：Change the outerwear to be made of top-grain calfskin

欢迎体验

欢迎大家下载体验Step1X-Edit，也欢迎广大开发者在模型评论区留言交流！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

基于多模态脑电、音频与视觉信号的情感识别算法【Nature核心期刊，EAV：EEG-音频-视频数据集】

魔乐社区

顶刊SCS | 基于视觉语言大模型推理分割的建筑足迹尺度功能分类, 样本数据和代码已开源!

魔乐社区

机器学习无监督学习sklearn实战一：K-Means 算法聚类对葡萄酒数据集进行聚类分析和可视化（主成分分析PCA特征降维）

魔乐社区

所有评论(0)

查看更多评论

魔乐社区

@2401_87243659

已为社区贡献53条内容