模型配置差异

不支持流式的模型组合

  • ASR模型路径:damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx
  • 标点模型路径:damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx

支持流式的模型组合

  • ASR模型路径:damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx
  • 标点模型路径:damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx

关键区别分析

ASR模型差异
非流式模型包含VAD(语音活动检测)和标点模块(-vad-punc后缀),适用于整段音频处理。流式模型仅包含基础ASR功能(无VAD和标点集成),依赖外部实时分段处理。

标点模型差异
非流式标点模型支持中英混合文本(cn-en),设计为离线处理。流式标点模型专为中文实时场景优化(zh-cn后缀),并标注realtime特性,支持低延迟流水线。

应用场景建议

非流式模型
适合离线任务如录音文件转写,依赖完整上下文生成标点,输出结果需后期处理。模型集成VAD自动分割静音片段。

流式模型
适配实时场景如会议转录,需配合流式VAD分段输入。标点模型针对分片文本优化,延迟更低,但可能牺牲部分标点准确性。

部署注意事项

  • 流式处理需额外实现音频分块逻辑(如WebSocket),非流式可直接提交完整音频。
  • 标点模型需与ASR模型语言类型匹配,混合语言场景应选择cn-en版本。
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐