文生视频(Text-to-Video)技术的迅猛发展提升了内容生产的效率,催生了从影视制作到广告设计等多个领域的多样化创意需求,更赋予普通人以强大的创作能力,使“人人皆可创作”成为可能。Open-Sora Plan系列模型自2024年3月首次发布以来,凭借其开放的技术架构和出色的生成能力,迅速吸引了学术界与工业界的广泛关注与支持。在北京大学深圳研究生院袁粒团队与昇腾研发团队的共同努力下,2025年6月5日,基于昇腾训练的Open-Sora Plan V1.5模型发布,相比上一代V1.3模型,该模型的功能更加完善,性能显著提升,尤为值得一提的是,该模型直接基于昇腾AI基础软硬件平台和MindSpeed MM多模态大模型套件进行训练和优化,充分体现了昇腾在大模型时代的技术支撑能力和自主创新潜力。

该模型已上线魔乐社区,欢迎下载体验! 

🔗模型链接:https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0

 

Open-Sora Plan V1.5模型介绍

Open-Sora Plan系列是大型多模态生成模型,使用当前比较前沿的DiT (Diffusion Transformer) 生成模型架构,该模型根据各种用户输入生成所需的高分辨率长时视频。Open-Sora Plan V1.5模型具有以下特征。

 

创新U型Sparse DiT(稀疏扩散Transformer)模型结构:

  • 引入稀疏注意力机制,实现计算速度提升45%,推理速度提升35%

  • 通过U形变化的稀疏度,提取多尺度交互信息,保证信息不损失

 

优化WFVAE模型结构:

  • 通过因果卷积缓存技术,实现无损时域分块推理;

  • 支持图和视频统一编码,重建效果媲美主流VAE(Variational Auto Encoder)模型,压缩比8*8*8,实现视频编码显存2~5倍降低,速度提升2倍

 

后训练:

  • 原生支持DPO强化学习算法(正在迭代中),进一步增强画面细节,优化动作连贯性。

 

基于MindSpeed MM的Open-Sora Plan V1.5模型训练优化特性

Open-Sora Plan系列模型需要处理异构的长序列数据,对模型训练的内存开销和训练性能提出了挑战。为了应对这些挑战,MindSpeed MM对Open-Sora Plan V1.5模型使用了RMSNorm、ROPE融合算子、分布式优化器及流水调度优化等特性,实现了性能优化。

 

支持TP/SP混合并行策略,内存占用降低75%

Open-Sora Plan v1.5模型参数量扩大为8.5B,模型训练容易因内存不足出现OOM问题,训练任务易中断。MindSpeed MM通过TP(张量并行)切分,按照行或者列对线性层的权重进行切分,在不同的device上并行计算不同部分的结果。当进一步扩大视频的分辨率时,模型需要处理的数据序列长度变长,激活值占用的显存增加,因此在TP切分的基础上进行SP(序列并行)切分,进一步对线性层之外的norm层计算时的激活值进行序列维度的切分,进一步减少单个device的显存占用和冗余计算,实现整体内存占用降低75%。

 

支持Encoder  DP策略,提升训练性能15%

在训练过程中,不同的模块(如VAE、Text Encoder 和DiT)会共享相同的计算资源。为了最大化资源利用,不同模块采用了不同的分布式策略,其中VAE和Text Encoder使用DP,而DiT采用DP + TP的混合策略,如果VAE 和Text Encoder按照DiT的并行组(DP+TP)读取数据,就会有冗余的计算。因此,使用了Encoder DP策略,在VAE和Text Encoder阶段基于DP域读取数据,并将编码结果进行缓存,在数据进入DiT模块之前,会进行一轮广播,确保每个TP域内所有的设备都拿到一致的输入数据。通过减少VAE和Text Encoder模块的冗余计算,实现训练性能提升15%。

 

使用昇腾CANN亲和基础算子和高性能融合算子,提升训练性能和稳定性,MFU提升幅度达170%

开启AdamW EMA融合算子,缓解Diffusion Model训练后期,loss震荡问题,收敛效果更稳定;采用Rope昇腾融合算子,训练速度提升6.2%;采用RMS Norm昇腾融合算子,训练速度提升11.2%;整体MFU提升达170%。

 

快速上手 基于MindSpeed MM 玩转Open-Sora Plan V1.5

 

环境安装

 

模型开发时推荐使用配套的环境版本,详见仓库中的“环境安装”

 

1、仓库拉取:

见以下链接的”仓库拉取”章节

https://gitee.com/ascend/MindSpeed-MM/blob/master/examples/opensoraplan1.5/README.md

 

2、环境搭建:

torch_npu与CANN包安装参考链接:

 

模型权重下载及转换

# python3.10
conda create -n test python=3.10
conda activate test
#安装torch和torch_npu,注意要选择对应python版本、x86或arm的torch、torch_npu及apex包
pip install torch-2.1.0-cp310-cp310m-manylinux2014_aarch64.whl
pip install torch_npu-2.1.0*-cp310-cp310m-linux_aarch64.whl
# apex for Ascend 参考https://gitee.com/ascend/apex
#建议从原仓编译安装
#将shell脚本中的环境变量路径修改为真实路径,下面为参考路径
source /usr/local/Ascend/ascend-toolkit/set_env.sh
#安装加速库
git clone https://gitee.com/ascend/MindSpeed.git
cd MindSpeed
# checkout commit from MindSpeed core_r0.8.0
git checkout 1ada966f33d6fab6eff7c95b197aae51f8790926
pip install -r requirements.txt
pip install -e .
cd ..
#安装其余依赖库
pip install -e .

 

权重链接:

https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0

 

权重转换:

MindSpeed MM在重构过程中修改了部分网络的结构名称,使用下面的脚本对原始预训练权重进行转换,该脚本实现了权重的转换和TP切分

 

 

数据集准备处理

 

用户需要将自己的数据集处理成如下格式

br
 ├──data.json
 ├──videos
 │  ├──video0001.mp4
 │  ├──video0002.mp4

 

其中,videos/下存放视频,data.json中包含该数据集中所有的视频-文本对信息,具体示例如下:

[
    { 
        "path": "videos/video0001.mp4",
        "cap": "Video discrimination1.",
        "num_frames": 81,
        "fps": 24,
        "resolution": {  
            "height": 480, 
            "width": 832  
        }  
    },  
    {        
        "path": "videos/video0002.mp4", 
        "cap": "Video discrimination2.", 
        "num_frames": 81,  
        "fps": 24,  
        "resolution": {
            "height": 480, 
            "width": 832 
        } 
    },    
    ......
]

 

修改examples/opensoraplan1.5/data.txt文件,其中每一行表示个数据集,第一个参数表示数据文件夹的路径,第二个参数表示data.json文件的路径,用,分隔。

 

全参微调

bash examples/opensoraplan1.5/pretrain.sh

 

推理

bash examples/opensoraplan1.5/inference.sh

 

更多模型链接


MindSpeed MM仓库readme链接:

https://gitee.com/ascend/MindSpeed-MM/blob/master/examples/opensoraplan1.5/README.md

 

魔乐社区模型链接:

https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0

 

Open-Sora Plan是由北大-兔展AIGC联合实验室发起的一个开源项目,其目标是复现OpenAI强大的视频生成模型Sora(T2V模型),并深入研究Video-VQVAE(VideoGPT)和DiT技术。Open-Sora Plan系列多模态模型会持续迭代,MindSpeed MM也将同步上线更加丰富的特性,敬请期待。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐