FunASR语音识别框架流式识别模型切换
本文对比了流式与非流式语音识别模型的配置差异。非流式组合(含VAD和标点)适合离线音频转写,而流式组合(基础ASR+实时标点)专为低延迟场景设计。关键区别在于:非流式ASR集成VAD/标点模块,处理完整音频;流式标点针对中文实时优化但精度可能降低。部署时需注意流式处理需分块逻辑,且标点模型需与ASR语言匹配。离线场景推荐非流式方案,实时场景应选择流式组合。
·
模型配置差异
不支持流式的模型组合
- ASR模型路径:
damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx - 标点模型路径:
damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx
支持流式的模型组合
- ASR模型路径:
damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx - 标点模型路径:
damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx
关键区别分析
ASR模型差异
非流式模型包含VAD(语音活动检测)和标点模块(-vad-punc后缀),适用于整段音频处理。流式模型仅包含基础ASR功能(无VAD和标点集成),依赖外部实时分段处理。
标点模型差异
非流式标点模型支持中英混合文本(cn-en),设计为离线处理。流式标点模型专为中文实时场景优化(zh-cn后缀),并标注realtime特性,支持低延迟流水线。
应用场景建议
非流式模型
适合离线任务如录音文件转写,依赖完整上下文生成标点,输出结果需后期处理。模型集成VAD自动分割静音片段。
流式模型
适配实时场景如会议转录,需配合流式VAD分段输入。标点模型针对分片文本优化,延迟更低,但可能牺牲部分标点准确性。
部署注意事项
- 流式处理需额外实现音频分块逻辑(如WebSocket),非流式可直接提交完整音频。
- 标点模型需与ASR模型语言类型匹配,混合语言场景应选择
cn-en版本。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)