实时语音转写大模型API对比
本文对比了豆包和讯飞两大实时语音转写大模型API,从准确率、功能、费用等方面进行分析。测试结果显示豆包准确率最高(4.8分),支持中英+5种方言,价格2.4-4元/小时,企业用户享有20小时免费时长;讯飞支持更多方言但准确率较低(1分),价格2-4.95元/小时。功能上讯飞支持角色分离和16个领域,豆包不支持。综合推荐豆包API,其流式异步模式识别效果稳定,更适合企业应用场景。
实时语音转写大模型API对比
准确率对比
豆包 > 讯飞 > FireRedASR(开源)
基础对比
| 平台 | 语种 | 免费时长 | 并发 | 费用 | 个人评价 |
|---|---|---|---|---|---|
| 豆包 | 中英+5种方言 | 企业20小时 | 默认10,可付费扩容 | 2.4~4元/小时 | 4颗星(比较推荐) |
| 讯飞 | 中英+202种方言 | 个人5小时/企业50小时 | 50路 | 2~4.95元/小时 | 1颗星(不推荐) |
功能对比
| 平台 | 格式 | 语种 | 热词 | 领域 | 角色分离 |
|---|---|---|---|---|---|
| 豆包 | pcm / wav / ogg / mp3 | 中英 | 支持 | 无 | 不支持 |
| 讯飞 | wav/pcm/opus | 中英 | 支持 | 16个 | 支持 |
1. 豆包——火山引擎
链接地址:https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=seedasr-streaming
支持的语种:中英+202种方言
免费时长:企业20小时
费用:2~4.95元/小时
并发:10,可付费扩容
技术文档:https://www.volcengine.com/docs/6561/1354869
Python 代码示例:见技术文档Demo一节
个人测试:
- 有三种模式,我选择的是流式异步,历史结果比较稳定。
- 确定性结果有延迟(可能不是传统的VAD方式)




2. 讯飞开放平台
链接地址:https://www.xfyun.cn/services/rtasr
支持的语种:中英+202种方言
免费时长:个人5小时/企业50小时
费用:2~4.95元/小时
并发:50路
技术文档:https://www.xfyun.cn/doc/spark/asr_llm/rtasr_llm.html
Python 代码示例:https://openres.xfyun.cn/xfyundoc/2025-09-04/17baba3c-bd3c-478f-a1a1-633bcbdb8286/1756977383723/rtasr_llm_demo.zip
个人测试:
- 虽然是实时语音撰写,但是从结果来看是类似大模型语音识别,历史结果会变动,工程化实现的实时效果。
- 每一句的结尾是没有标点的,会在第二句结束的时候把第一句的标点补上。
- 实测如果15s左右没有收到新的识别结果返回,也会自动断开连接。


结果展示:
文档细节:
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)