基于昇腾MindSpeed MM玩转Open-Sora Plan V1.5模型

Open-Sora Plan系列是大型多模态生成模型，使用当前比较前沿的DiT (Diffusion Transformer) 生成模型架构，该模型根据各种用户输入生成所需的高分辨率长时视频。Open-Sora Plan V1.5模型具有以下特征。

魔乐社区

522人浏览 · 2025-06-09 14:55:12

魔乐社区 · 2025-06-09 14:55:12 发布

文生视频（Text-to-Video）技术的迅猛发展提升了内容生产的效率，催生了从影视制作到广告设计等多个领域的多样化创意需求，更赋予普通人以强大的创作能力，使“人人皆可创作”成为可能。Open-Sora Plan系列模型自2024年3月首次发布以来，凭借其开放的技术架构和出色的生成能力，迅速吸引了学术界与工业界的广泛关注与支持。在北京大学深圳研究生院袁粒团队与昇腾研发团队的共同努力下，2025年6月5日，基于昇腾训练的Open-Sora Plan V1.5模型发布，相比上一代V1.3模型，该模型的功能更加完善，性能显著提升，尤为值得一提的是，该模型直接基于昇腾AI基础软硬件平台和MindSpeed MM多模态大模型套件进行训练和优化，充分体现了昇腾在大模型时代的技术支撑能力和自主创新潜力。

该模型已上线魔乐社区，欢迎下载体验！

🔗模型链接：https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0

Open-Sora Plan V1.5模型介绍

创新U型Sparse DiT（稀疏扩散Transformer）模型结构：

引入稀疏注意力机制，实现计算速度提升45%，推理速度提升35%
通过U形变化的稀疏度，提取多尺度交互信息，保证信息不损失

优化WFVAE模型结构：

通过因果卷积缓存技术，实现无损时域分块推理；
支持图和视频统一编码，重建效果媲美主流VAE（Variational Auto Encoder）模型，压缩比8*8*8，实现视频编码显存2~5倍降低，速度提升2倍

后训练：

原生支持DPO强化学习算法（正在迭代中），进一步增强画面细节，优化动作连贯性。

基于MindSpeed MM的Open-Sora Plan V1.5模型训练优化特性

Open-Sora Plan系列模型需要处理异构的长序列数据，对模型训练的内存开销和训练性能提出了挑战。为了应对这些挑战，MindSpeed MM对Open-Sora Plan V1.5模型使用了RMSNorm、ROPE融合算子、分布式优化器及流水调度优化等特性，实现了性能优化。

支持TP/SP混合并行策略，内存占用降低75%

Open-Sora Plan v1.5模型参数量扩大为8.5B，模型训练容易因内存不足出现OOM问题，训练任务易中断。MindSpeed MM通过TP（张量并行）切分，按照行或者列对线性层的权重进行切分，在不同的device上并行计算不同部分的结果。当进一步扩大视频的分辨率时，模型需要处理的数据序列长度变长，激活值占用的显存增加，因此在TP切分的基础上进行SP（序列并行）切分，进一步对线性层之外的norm层计算时的激活值进行序列维度的切分，进一步减少单个device的显存占用和冗余计算，实现整体内存占用降低75%。

支持Encoder DP策略，提升训练性能15%

在训练过程中，不同的模块（如VAE、Text Encoder 和DiT）会共享相同的计算资源。为了最大化资源利用，不同模块采用了不同的分布式策略，其中VAE和Text Encoder使用DP，而DiT采用DP + TP的混合策略，如果VAE 和Text Encoder按照DiT的并行组（DP+TP）读取数据，就会有冗余的计算。因此，使用了Encoder DP策略，在VAE和Text Encoder阶段基于DP域读取数据，并将编码结果进行缓存，在数据进入DiT模块之前，会进行一轮广播，确保每个TP域内所有的设备都拿到一致的输入数据。通过减少VAE和Text Encoder模块的冗余计算，实现训练性能提升15%。

使用昇腾CANN亲和基础算子和高性能融合算子，提升训练性能和稳定性，MFU提升幅度达170%

开启AdamW EMA融合算子，缓解Diffusion Model训练后期，loss震荡问题，收敛效果更稳定；采用Rope昇腾融合算子，训练速度提升6.2%；采用RMS Norm昇腾融合算子，训练速度提升11.2%；整体MFU提升达170%。

快速上手基于MindSpeed MM 玩转Open-Sora Plan V1.5

环境安装

模型开发时推荐使用配套的环境版本，详见仓库中的“环境安装”

1、仓库拉取：

见以下链接的”仓库拉取”章节

https://gitee.com/ascend/MindSpeed-MM/blob/master/examples/opensoraplan1.5/README.md

2、环境搭建：

torch_npu与CANN包安装参考链接：

模型权重下载及转换

# python3.10
conda create -n test python=3.10
conda activate test
#安装torch和torch_npu，注意要选择对应python版本、x86或arm的torch、torch_npu及apex包
pip install torch-2.1.0-cp310-cp310m-manylinux2014_aarch64.whl
pip install torch_npu-2.1.0*-cp310-cp310m-linux_aarch64.whl
# apex for Ascend 参考https://gitee.com/ascend/apex
#建议从原仓编译安装
#将shell脚本中的环境变量路径修改为真实路径，下面为参考路径
source /usr/local/Ascend/ascend-toolkit/set_env.sh
#安装加速库
git clone https://gitee.com/ascend/MindSpeed.git
cd MindSpeed
# checkout commit from MindSpeed core_r0.8.0
git checkout 1ada966f33d6fab6eff7c95b197aae51f8790926
pip install -r requirements.txt
pip install -e .
cd ..
#安装其余依赖库
pip install -e .

权重链接：

https://modelers.cn/models/PKU-YUAN-Group/Open-Sora-Plan-v1.5.0

权重转换：

MindSpeed MM在重构过程中修改了部分网络的结构名称，使用下面的脚本对原始预训练权重进行转换，该脚本实现了权重的转换和TP切分

数据集准备处理

用户需要将自己的数据集处理成如下格式

br
 ├──data.json
 ├──videos
 │  ├──video0001.mp4
 │  ├──video0002.mp4

其中，videos/下存放视频，data.json中包含该数据集中所有的视频-文本对信息，具体示例如下：

[
    { 
        "path": "videos/video0001.mp4",
        "cap": "Video discrimination1.",
        "num_frames": 81,
        "fps": 24,
        "resolution": {  
            "height": 480, 
            "width": 832  
        }  
    },  
    {        
        "path": "videos/video0002.mp4", 
        "cap": "Video discrimination2.", 
        "num_frames": 81,  
        "fps": 24,  
        "resolution": {
            "height": 480, 
            "width": 832 
        } 
    },    
    ......
]

修改examples/opensoraplan1.5/data.txt文件，其中每一行表示个数据集，第一个参数表示数据文件夹的路径，第二个参数表示data.json文件的路径，用,分隔。

全参微调

bash examples/opensoraplan1.5/pretrain.sh

推理

bash examples/opensoraplan1.5/inference.sh

所有评论(0)

查看更多评论

魔乐社区

@2401_87243659

已为社区贡献53条内容

基于昇腾MindSpeed MM玩转Open-Sora Plan V1.5模型

魔乐社区

Open-Sora Plan V1.5模型介绍

快速上手 基于MindSpeed MM 玩转Open-Sora Plan V1.5

环境安装

模型权重下载及转换

数据集准备处理

全参微调

推理

更多模型链接

所有评论(0)

魔乐社区

快速上手基于MindSpeed MM 玩转Open-Sora Plan V1.5