FunASR语音识别框架流式识别模型切换

本文对比了流式与非流式语音识别模型的配置差异。非流式组合（含VAD和标点）适合离线音频转写，而流式组合（基础ASR+实时标点）专为低延迟场景设计。关键区别在于：非流式ASR集成VAD/标点模块，处理完整音频；流式标点针对中文实时优化但精度可能降低。部署时需注意流式处理需分块逻辑，且标点模型需与ASR语言匹配。离线场景推荐非流式方案，实时场景应选择流式组合。

gallonyin

822人浏览 · 2025-08-25 11:34:24

gallonyin · 2025-08-25 11:34:24 发布

模型配置差异

不支持流式的模型组合

ASR模型路径：damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx
标点模型路径：damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx

支持流式的模型组合

ASR模型路径：damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx
标点模型路径：damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx

关键区别分析

ASR模型差异
非流式模型包含VAD（语音活动检测）和标点模块（-vad-punc后缀），适用于整段音频处理。流式模型仅包含基础ASR功能（无VAD和标点集成），依赖外部实时分段处理。

标点模型差异
非流式标点模型支持中英混合文本（cn-en），设计为离线处理。流式标点模型专为中文实时场景优化（zh-cn后缀），并标注realtime特性，支持低延迟流水线。

应用场景建议

非流式模型
适合离线任务如录音文件转写，依赖完整上下文生成标点，输出结果需后期处理。模型集成VAD自动分割静音片段。

流式模型
适配实时场景如会议转录，需配合流式VAD分段输入。标点模型针对分片文本优化，延迟更低，但可能牺牲部分标点准确性。

部署注意事项

流式处理需额外实现音频分块逻辑（如WebSocket），非流式可直接提交完整音频。
标点模型需与ASR模型语言类型匹配，混合语言场景应选择cn-en版本。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda