开源,FunASR:语音识别工具包,多样模型与功能等你来探索
FunASR是阿里开源的全能语音识别工具包,支持ASR、VAD、标点恢复等多项功能,提供Paraformer等高性能预训练模型。特色包括:支持流式/非流式识别、模型导出及服务部署;2024年持续更新,新增情感识别等功能;离线转录GPU版RTF低至0.0076。安装简单(pip或源码),提供命令行和API调用方式,适合学术与工业应用。当前部分GPU服务仍在优化中。开源地址:github.com/al
摘要:
FunASR is a speech recognition toolkit that bridges academic and industrial applications. It offers features like ASR, VAD, etc., has released various pretrained models, provides installation ways, quick start tutorials for different speech recognition scenarios (non - streaming, streaming), and supports model export and service deployment. It has regular updates on new features and models.
FunASR是一个致力于在语音识别的学术研究和工业应用之间搭建桥梁的基础语音识别工具包。它提供了包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分割和多说话人ASR等多种功能,还提供了便捷的脚本和教程,支持预训练模型的推理和微调。
亮点与更新
- 亮点:FunASR有多种功能,还在ModelScope和huggingface上开源了大量学术和工业预训练模型,比如具有高精度、高效和便于部署优点的非自回归端到端语音识别模型Paraformer-large。
- 更新:2024年10月29日到2024年5月15日有多次更新,包括发布新的实时转录服务版本、新增支持关键词检测模型、情感识别模型等,还对离线文件转录服务等进行优化,如2024/06/27发布的离线文件转录服务GPU 1.0版本,在长音频测试集上,单线程RTF是0.0076,多线程加速比超1200(相比CPU的330+)。
安装
- 要求:python≥3.8,torch≥1.13,还需要torchaudio。
- 安装方式:可以通过pypi安装,命令是
pip3 install -U funasr
;也可以从源码安装,先克隆仓库git clone https://github.com/alibaba/FunASR.git && cd FunASR
,然后pip3 install -e ./
;如果需要预训练模型,还可以安装modelscope或huggingface_hub,命令是pip3 install -U modelscope huggingface_hub
。
模型库
FunASR在工业数据上开源了大量预训练模型,有多种任务的模型,如SenseVoiceSmall支持多种语音理解能力,paraformer-zh等用于语音识别等不同任务的模型,还列出了各模型的任务详情、训练数据和参数等信息。
快速开始
- 命令行使用:例如
funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=asr_example_zh.wav
,支持识别单个音频文件或Kaldi风格的wav.scp格式文件列表。 - 语音识别(非流式)
- SenseVoice示例:通过
AutoModel
加载模型,设置相关参数如模型路径、VAD模型、VAD配置等,然后调用generate
方法进行识别,可设置语言、是否使用ITN等参数。 - Paraformer示例:加载Paraformer模型,设置VAD、标点等模型,调用
generate
方法进行识别,还可设置热词等参数。
- SenseVoice示例:通过
- 语音识别(流式):设置chunk_size等参数,通过循环处理音频分块进行流式识别,要注意最后一个音频片段输入时设置
is_final=True
强制输出最后一个词。
更多示例
- 导出ONNX:可以通过命令行
funasr-export ++model=paraformer ++quantize=false ++device=cpu
或Python代码实现导出。 - 测试ONNX:安装
funasr-onnx
后,通过加载Paraformer模型并传入音频路径进行测试。
部署服务
FunASR支持部署预训练或微调后的模型用于服务,目前已有的服务部署类型包括文件转录服务(普通话CPU版等)、实时转录服务(普通话CPU)等,更多详细信息可参考服务部署文档。
开源地址:https://github.com/alibaba/FunASR
情境:在需要进行语音识别相关研究或工业应用开发时,使用FunASR可以方便地利用其提供的各种模型和功能来进行语音识别相关的任务。问题和难点可能包括对不同模型参数的准确设置以达到最佳识别效果等。效果体现在能够快速进行语音识别、支持多种语音相关任务等,比如Paraformer-large模型的高精度、高效和便于部署能快速构建语音识别服务,离线文件转录服务GPU 1.0版本在长音频处理上的高效等。遗留问题可能包括部分服务部署如文件转录服务普通话GPU版本还在进行中,技术上可能存在一些复杂模型部署优化等难点。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)