文生视频（Text-to-Video）

文生视频技术摘要：基于SD模型扩展的视频生成项目如ModelScope的text-to-video-synthesis，支持2-4秒短视频生成，可处理中文prompt。生成时间约10-60秒/张，视频生成需30秒以上。本地部署要求至少8GB GPU，通过pip安装modelscope库即可使用。示例代码展示了从文本描述（如"夕阳下骑自行车的少年"）生成视频的流程。该技术为AI视

weixin_40388758

340人浏览 · 2025-06-21 22:21:12

weixin_40388758 · 2025-06-21 22:21:12 发布

🕒 生成时间：每张图大概 10–60 秒（取决于设备）

✅ 二、文生视频（Text-to-Video）

以下项目中，很多都基于 SD 模型扩展，但视频生成复杂度高，生成时间一般 超过 30 秒，也正好符合你要求。

1. ModelScope's text-to-video-synthesis

📦 地址：modelscope/modelscope
🔬 模型：text-to-video-synthesis
🎥 视频时长：2–4秒，支持中文 prompt
💻 本地部署建议：至少 8GB GPU
🛠️ 安装：

pip install modelscope

pip install "modelscope[multimodal]"

🧪 示例代码：

from modelscope.pipelines 
import pipeline from modelscope.utils.constant 
import Tasks 
p = pipeline(Tasks.text_to_video_synthesis, model='damo/text-to-video-synthesis') video_path = p({'text': '一个骑自行车的少年在夕阳下'})['output_video']