AVSpeech数据集介绍

去发现同类优质开源项目:https://gitcode.com/

AVSpeech数据集是一个大规模的视听数据集,旨在为研究者提供无干扰背景信号的纯净语音片段。这些语音片段时长不一,介于3至10秒之间,保证在每一个片段中,视频内的唯一可见面孔与音频中的声音均属于同一位说话者。

数据集特点

  • 视频时长:3至10秒不等
  • 视频数量:约4700小时视频片段
  • 说话者数量:约150000个不同说话者
  • 多样性:涵盖各种人物、语言和面部姿势

文件下载

我们提供了两个CSV文件供下载,分别为:

  1. train.csv:大小为128MB,包含270k视频片段注释。
  2. test.csv:大小为9MB,包含22k视频片段注释。

CSV文件格式

CSV文件中记录的信息包括:

  • YouTube ID:视频的唯一标识
  • 开始片段:片段开始的时间点
  • 结束片段:片段结束的时间点
  • X 坐标、Y 坐标:说话者脸部的中心点坐标,相对于帧大小进行标准化,坐标范围从(0.0, 0.0)到(1.0, 1.0)。

注意事项

  • 训练集和测试集的说话者是互不相同的。

本数据集适用于语音识别、面部识别、视听同步处理等多种研究领域,为相关研究提供了丰富的资源。

去发现同类优质开源项目:https://gitcode.com/

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐