准确率对比

豆包 > 讯飞 > FireRedASR(开源)

基础对比

平台 语种 免费时长 并发 费用 个人评价
豆包 中英+5种方言 企业20小时 默认10,可付费扩容 2.4~4元/小时 4颗星(比较推荐)
讯飞 中英+202种方言 个人5小时/企业50小时 50路 2~4.95元/小时 1颗星(不推荐)

功能对比

平台 格式 语种 热词 领域 角色分离
豆包 pcm / wav / ogg / mp3 中英 支持 不支持
讯飞 wav/pcm/opus 中英 支持 16个 支持

1. 豆包——火山引擎

链接地址:https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=seedasr-streaming
支持的语种:中英+202种方言
免费时长:企业20小时
费用:2~4.95元/小时
并发:10,可付费扩容
技术文档:https://www.volcengine.com/docs/6561/1354869
Python 代码示例:见技术文档Demo一节
个人测试:

  1. 有三种模式,我选择的是流式异步,历史结果比较稳定。
  2. 确定性结果有延迟(可能不是传统的VAD方式)
    豆包
    在这里插入图片描述
    并发费用
    并发模型

2. 讯飞开放平台

链接地址:https://www.xfyun.cn/services/rtasr
支持的语种:中英+202种方言
免费时长:个人5小时/企业50小时
费用:2~4.95元/小时
并发:50路
技术文档:https://www.xfyun.cn/doc/spark/asr_llm/rtasr_llm.html
Python 代码示例:https://openres.xfyun.cn/xfyundoc/2025-09-04/17baba3c-bd3c-478f-a1a1-633bcbdb8286/1756977383723/rtasr_llm_demo.zip
个人测试:

  1. 虽然是实时语音撰写,但是从结果来看是类似大模型语音识别,历史结果会变动,工程化实现的实时效果。
  2. 每一句的结尾是没有标点的,会在第二句结束的时候把第一句的标点补上。
  3. 实测如果15s左右没有收到新的识别结果返回,也会自动断开连接。
    介绍
    收费
    结果展示:
    在这里插入图片描述
    文档细节:
    自动断开
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐