基于昇腾MindSpeed MM玩转Open-Sora Plan V1.5模型
Open-Sora Plan系列是大型多模态生成模型,使用当前比较前沿的DiT (Diffusion Transformer) 生成模型架构,该模型根据各种用户输入生成所需的高分辨率长时视频。Open-Sora Plan V1.5模型具有以下特征。
文生视频(Text-to-Video)技术的迅猛发展提升了内容生产的效率,催生了从影视制作到广告设计等多个领域的多样化创意需求,更赋予普通人以强大的创作能力,使“人人皆可创作”成为可能。Open-Sora Plan系列模型自2024年3月首次发布以来,凭借其开放的技术架构和出色的生成能力,迅速吸引了学术界与工业界的广泛关注与支持。在北京大学深圳研究生院袁粒团队与昇腾研发团队的共同努力下,2025年6月5日,基于昇腾训练的Open-Sora Plan V1.5模型发布,相比上一代V1.3模型,该模型的功能更加完善,性能显著提升,尤为值得一提的是,该模型直接基于昇腾AI基础软硬件平台和MindSpeed MM多模态大模型套件进行训练和优化,充分体现了昇腾在大模型时代的技术支撑能力和自主创新潜力。
该模型已上线魔乐社区,欢迎下载体验!
🔗模型链接:https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0
Open-Sora Plan V1.5模型介绍
Open-Sora Plan系列是大型多模态生成模型,使用当前比较前沿的DiT (Diffusion Transformer) 生成模型架构,该模型根据各种用户输入生成所需的高分辨率长时视频。Open-Sora Plan V1.5模型具有以下特征。
创新U型Sparse DiT(稀疏扩散Transformer)模型结构:
-
引入稀疏注意力机制,实现计算速度提升45%,推理速度提升35%
-
通过U形变化的稀疏度,提取多尺度交互信息,保证信息不损失
优化WFVAE模型结构:
-
通过因果卷积缓存技术,实现无损时域分块推理;
-
支持图和视频统一编码,重建效果媲美主流VAE(Variational Auto Encoder)模型,压缩比8*8*8,实现视频编码显存2~5倍降低,速度提升2倍
后训练:
-
原生支持DPO强化学习算法(正在迭代中),进一步增强画面细节,优化动作连贯性。
基于MindSpeed MM的Open-Sora Plan V1.5模型训练优化特性
Open-Sora Plan系列模型需要处理异构的长序列数据,对模型训练的内存开销和训练性能提出了挑战。为了应对这些挑战,MindSpeed MM对Open-Sora Plan V1.5模型使用了RMSNorm、ROPE融合算子、分布式优化器及流水调度优化等特性,实现了性能优化。
支持TP/SP混合并行策略,内存占用降低75%
Open-Sora Plan v1.5模型参数量扩大为8.5B,模型训练容易因内存不足出现OOM问题,训练任务易中断。MindSpeed MM通过TP(张量并行)切分,按照行或者列对线性层的权重进行切分,在不同的device上并行计算不同部分的结果。当进一步扩大视频的分辨率时,模型需要处理的数据序列长度变长,激活值占用的显存增加,因此在TP切分的基础上进行SP(序列并行)切分,进一步对线性层之外的norm层计算时的激活值进行序列维度的切分,进一步减少单个device的显存占用和冗余计算,实现整体内存占用降低75%。
支持Encoder DP策略,提升训练性能15%
在训练过程中,不同的模块(如VAE、Text Encoder 和DiT)会共享相同的计算资源。为了最大化资源利用,不同模块采用了不同的分布式策略,其中VAE和Text Encoder使用DP,而DiT采用DP + TP的混合策略,如果VAE 和Text Encoder按照DiT的并行组(DP+TP)读取数据,就会有冗余的计算。因此,使用了Encoder DP策略,在VAE和Text Encoder阶段基于DP域读取数据,并将编码结果进行缓存,在数据进入DiT模块之前,会进行一轮广播,确保每个TP域内所有的设备都拿到一致的输入数据。通过减少VAE和Text Encoder模块的冗余计算,实现训练性能提升15%。
使用昇腾CANN亲和基础算子和高性能融合算子,提升训练性能和稳定性,MFU提升幅度达170%
开启AdamW EMA融合算子,缓解Diffusion Model训练后期,loss震荡问题,收敛效果更稳定;采用Rope昇腾融合算子,训练速度提升6.2%;采用RMS Norm昇腾融合算子,训练速度提升11.2%;整体MFU提升达170%。
快速上手 基于MindSpeed MM 玩转Open-Sora Plan V1.5
环境安装
模型开发时推荐使用配套的环境版本,详见仓库中的“环境安装”
1、仓库拉取:
见以下链接的”仓库拉取”章节
https://gitee.com/ascend/MindSpeed-MM/blob/master/examples/opensoraplan1.5/README.md
2、环境搭建:
torch_npu与CANN包安装参考链接:
模型权重下载及转换
# python3.10
conda create -n test python=3.10
conda activate test
#安装torch和torch_npu,注意要选择对应python版本、x86或arm的torch、torch_npu及apex包
pip install torch-2.1.0-cp310-cp310m-manylinux2014_aarch64.whl
pip install torch_npu-2.1.0*-cp310-cp310m-linux_aarch64.whl
# apex for Ascend 参考https://gitee.com/ascend/apex
#建议从原仓编译安装
#将shell脚本中的环境变量路径修改为真实路径,下面为参考路径
source /usr/local/Ascend/ascend-toolkit/set_env.sh
#安装加速库
git clone https://gitee.com/ascend/MindSpeed.git
cd MindSpeed
# checkout commit from MindSpeed core_r0.8.0
git checkout 1ada966f33d6fab6eff7c95b197aae51f8790926
pip install -r requirements.txt
pip install -e .
cd ..
#安装其余依赖库
pip install -e .
权重链接:
https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0
权重转换:
MindSpeed MM在重构过程中修改了部分网络的结构名称,使用下面的脚本对原始预训练权重进行转换,该脚本实现了权重的转换和TP切分
数据集准备处理
用户需要将自己的数据集处理成如下格式
br
├──data.json
├──videos
│ ├──video0001.mp4
│ ├──video0002.mp4
其中,videos/下存放视频,data.json中包含该数据集中所有的视频-文本对信息,具体示例如下:
[
{
"path": "videos/video0001.mp4",
"cap": "Video discrimination1.",
"num_frames": 81,
"fps": 24,
"resolution": {
"height": 480,
"width": 832
}
},
{
"path": "videos/video0002.mp4",
"cap": "Video discrimination2.",
"num_frames": 81,
"fps": 24,
"resolution": {
"height": 480,
"width": 832
}
},
......
]
修改examples/opensoraplan1.5/data.txt文件,其中每一行表示个数据集,第一个参数表示数据文件夹的路径,第二个参数表示data.json文件的路径,用,分隔。
全参微调
bash examples/opensoraplan1.5/pretrain.sh
推理
bash examples/opensoraplan1.5/inference.sh
更多模型链接
MindSpeed MM仓库readme链接:
https://gitee.com/ascend/MindSpeed-MM/blob/master/examples/opensoraplan1.5/README.md
魔乐社区模型链接:
https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0
Open-Sora Plan是由北大-兔展AIGC联合实验室发起的一个开源项目,其目标是复现OpenAI强大的视频生成模型Sora(T2V模型),并深入研究Video-VQVAE(VideoGPT)和DiT技术。Open-Sora Plan系列多模态模型会持续迭代,MindSpeed MM也将同步上线更加丰富的特性,敬请期待。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)