ace2005中文数据集_免费中文语音数据集
免费中文语音数据集♪作者:帅帅家的人工智障欢迎关注vx公众号、围脖、bilibili同名号授权后可转载本文会简单介绍一下目前开源或者可以免费申请的中文语音数据集,同时还会提供下载的链接,方便大家申请或者下载。 忍不住放一张好看的ctc + Attention组合,当然要是加上transformer会更好~01:AISHELLAISHELL1:178h,16khz,16bit,400人录制,涉及智能
免费中文语音数据集
♪作者:帅帅家的人工智障
欢迎关注vx公众号、围脖、bilibili同名号
授权后可转载
本文会简单介绍一下目前开源或者可以免费申请的中文语音数据集,同时还会提供下载的链接,方便大家申请或者下载。
忍不住放一张好看的ctc + Attention组合,当然要是加上transformer会更好~
01:AISHELL
AISHELL1:178h,16khz,16bit,400人录制,涉及智能家居、无人驾驶、工业生产等11个领域。
下载链接:http://cn-mirror.openslr.org/33/
AISHELL2:1000h,16khz,16bit,1911人录制,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。
下载链接:http://www.aishelltech.com/aishell_2
注意:AISHELL2需要用学校相关信息免费申请
02:THCHS-30
THCHS-30:30h,16khz,30人录制,清华大学30小时中文语音库。安静的办公室环境下,通过单个碳粒麦克风录取,文本选取自大容量的新闻。
下载链接:http://cn-mirror.openslr.org/18/
03:ST-CMDS
ST-CMDS:500h,16khz,16bit,855人录制,全称Free ST Chinese Mandarin Corpus。安静的室内环境下,通过单个碳粒麦克风录取,文本选取网络聊天智能音箱控制等。
下载链接:http://cn-mirror.openslr.org/38/
04:Primewords Chinese Corpus Set 1
Primewords Chinese Corpus Set 1:100h,使用智能手机录制,296个说话人,可以免费用于学术用途。
下载链接:http://cn-mirror.openslr.org/47/
05:aidatatang_200zh
aidatatang_200zh:200h,16khz,16bit,600人录制,Android和iOS手机录制。安静的室内环境下录制。
下载链接:http://www.openslr.org/62/
06:hkust
hkust:200h,16khz,16bit。中文电话数据集,电话对话,espnet,kaldi里面都有egs。
下载链接:http://catalog.ldc.upenn.edu/LDC2005S15
中文语音数据集很多,如gale_mandarin: 中文新闻广播数据集等,上面几个基本是大家比较常用的,如使用kaldi、espnet等工具会有相应的egs baseline,配好环境直接上手就能跑。
另外可能要注意的是,有些免费指的是学术研究免费~
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)