AVSpeech数据集介绍
AVSpeech数据集介绍去发现同类优质开源项目:https://gitcode.com/AVSpeech数据集是一个大规模的视听数据集,旨在为研究者提供无干扰背景信号的纯净语音片段。这些语音片段时长不一,介于3至10秒之间,保证在每一个片段中,视频内的唯一可见面孔与音频中的声音均属于同一位说话者。数据集特点视频时长:3至10秒不等视频数量:约4700小时视频片段说话者数量:约150...
·
AVSpeech数据集介绍
去发现同类优质开源项目:https://gitcode.com/
AVSpeech数据集是一个大规模的视听数据集,旨在为研究者提供无干扰背景信号的纯净语音片段。这些语音片段时长不一,介于3至10秒之间,保证在每一个片段中,视频内的唯一可见面孔与音频中的声音均属于同一位说话者。
数据集特点
- 视频时长:3至10秒不等
- 视频数量:约4700小时视频片段
- 说话者数量:约150000个不同说话者
- 多样性:涵盖各种人物、语言和面部姿势
文件下载
我们提供了两个CSV文件供下载,分别为:
- train.csv:大小为128MB,包含270k视频片段注释。
- test.csv:大小为9MB,包含22k视频片段注释。
CSV文件格式
CSV文件中记录的信息包括:
- YouTube ID:视频的唯一标识
- 开始片段:片段开始的时间点
- 结束片段:片段结束的时间点
- X 坐标、Y 坐标:说话者脸部的中心点坐标,相对于帧大小进行标准化,坐标范围从(0.0, 0.0)到(1.0, 1.0)。
注意事项
- 训练集和测试集的说话者是互不相同的。
本数据集适用于语音识别、面部识别、视听同步处理等多种研究领域,为相关研究提供了丰富的资源。
去发现同类优质开源项目:https://gitcode.com/
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)