文生视频相关资源汇总

本次学习及其硬核，从sora的技术报告研读，到大咖交流，然后对sora可能实现路径的猜想交流，和开源资料分享。整体脉络非常清晰，本人只是AI技术的爱好者，主职算法不涉及AIGC的内容，可以说是纯小白，但这段时间的学习，让我基本摸清了文生视频的发展路径，了解到了sora为什么能横空出世，只是在这条路径中自己有太多不了解的地方，需要花时间去昂实相关基础。后续会一点一点补齐相关知识，用一些项目练习，相关

朔漠君

683人浏览 · 2024-03-12 15:19:11

朔漠君 · 2024-03-12 15:19:11 发布

文生视频相关资源汇总

目前想要尝试的项目描述：
资源
- 开源数据集(可在魔搭社区中找)
- 数据处理
目前学习的感想
参考

目前想要尝试的项目描述：

文生视频：

先使用CahtGPT，写分镜剧本
再使用SD，MJ等进文生图
最后利用SVD，pika，Runway等生成视频

资源

开源数据集(可在魔搭社区中找)

VideoInstruct-100k：
使用人工辅助和半自动注释技术生成的高质量视频对话数据集
panda-70m：
一个包含70M高质量视频字幕对的大规模数据集
Youku-mPLUG：
预训练集挖掘自优酷站内海量优质短视频内容
MSR-VTT：
一个开放域视频字幕的大规模数据集
Short2Story：
视频文本基准和用于多镜头理解的可扩展代码。包含20k视频的详细长摘要和80k视频镜头字幕
internVid：
一个以视频为中心的大规模多模态数据集，可以学习强大且可转移的视频文本表示，以实现多模态理解和生成。
webvid-10M：
大型文本视频数据集，包含从素材网站取约1000万个视频文本对。

数据处理

Data-Juicar 扩展了对多模态数据的支持，已经实现上百个专用视频、图像、音频、文本等多模态数据处理算子及其工具，帮助用户分析、清洗及生成大规模高质量数据。

目前学习的感想

本次学习及其硬核，从sora的技术报告研读，到大咖交流，然后对sora可能实现路径的猜想交流，和开源资料分享。整体脉络非常清晰，本人只是AI技术的爱好者，主职算法不涉及AIGC的内容，可以说是纯小白，但这段时间的学习，让我基本摸清了文生视频的发展路径，了解到了sora为什么能横空出世，只是在这条路径中自己有太多不了解的地方，需要花时间去昂实相关基础。任重道远啊！后续会一点一点补齐相关知识，用一些项目练习，相关文档和代码都会秉承Datawhale的开源理念，分享在CSDN和Github上。

参考

datawhale 202402期学习
二次元的datawhale
魔搭社区

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。