目前想要尝试的项目描述:

文生视频:

  • 先使用CahtGPT,写分镜剧本
  • 再使用SD,MJ等进文生图
  • 最后利用SVD,pika,Runway等生成视频

资源

开源数据集(可在魔搭社区中找)

  • VideoInstruct-100k:
    使用人工辅助和半自动注释技术生成的高质量视频对话数据集
  • panda-70m:
    一个包含70M高质量视频字幕对的大规模数据集
  • Youku-mPLUG:
    预训练集挖掘自优酷站内海量优质短视频内容
  • MSR-VTT:
    一个开放域视频字幕的大规模数据集
  • Short2Story:
    视频文本基准和用于多镜头理解的可扩展代码。包含20k视频的详细长摘要和80k视频镜头字幕
  • internVid:
    一个以视频为中心的大规模多模态数据集,可以学习强大且可转移的视频文本表示,以实现多模态理解和生成。
  • webvid-10M:
    大型文本视频数据集,包含从素材网站取约1000万个视频文本对。

数据处理

  • Data-Juicar 扩展了对多模态数据的支持,已经实现上百个专用视频、图像、音频、文本等多模态数据处理算子及其工具,帮助用户分析、清洗及生成大规模高质量数据。

目前学习的感想

本次学习及其硬核,从sora的技术报告研读,到大咖交流,然后对sora可能实现路径的猜想交流,和开源资料分享。整体脉络非常清晰,本人只是AI技术的爱好者,主职算法不涉及AIGC的内容,可以说是纯小白,但这段时间的学习,让我基本摸清了文生视频的发展路径,了解到了sora为什么能横空出世,只是在这条路径中自己有太多不了解的地方,需要花时间去昂实相关基础。任重道远啊!后续会一点一点补齐相关知识,用一些项目练习,相关文档和代码都会秉承Datawhale的开源理念,分享在CSDN和Github上。

参考

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐