实时语音转写大模型API对比

莽夫搞战术

1330人浏览 · 2025-11-13 09:11:02

莽夫搞战术 · 2025-11-13 09:11:02 发布

实时语音转写大模型API对比

1. 豆包——火山引擎
2. 讯飞开放平台

准确率对比

豆包 > 讯飞 > FireRedASR(开源)

基础对比

平台	语种	免费时长	并发	费用	个人评价
豆包	中英+5种方言	企业20小时	默认10，可付费扩容	2.4~4元/小时	4颗星（比较推荐）
讯飞	中英+202种方言	个人5小时/企业50小时	50路	2~4.95元/小时	1颗星（不推荐）

功能对比

平台	格式	语种	热词	领域	角色分离
豆包	pcm / wav / ogg / mp3	中英	支持	无	不支持
讯飞	wav/pcm/opus	中英	支持	16个	支持

1. 豆包——火山引擎

链接地址：https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=seedasr-streaming
支持的语种：中英+202种方言
免费时长：企业20小时
费用：2~4.95元/小时
并发：10，可付费扩容
技术文档：https://www.volcengine.com/docs/6561/1354869
Python 代码示例：见技术文档Demo一节
个人测试：

有三种模式，我选择的是流式异步，历史结果比较稳定。
确定性结果有延迟（可能不是传统的VAD方式）

2. 讯飞开放平台

链接地址：https://www.xfyun.cn/services/rtasr
支持的语种：中英+202种方言
免费时长：个人5小时/企业50小时
费用：2~4.95元/小时
并发：50路
技术文档：https://www.xfyun.cn/doc/spark/asr_llm/rtasr_llm.html
Python 代码示例：https://openres.xfyun.cn/xfyundoc/2025-09-04/17baba3c-bd3c-478f-a1a1-633bcbdb8286/1756977383723/rtasr_llm_demo.zip
个人测试：

虽然是实时语音撰写，但是从结果来看是类似大模型语音识别，历史结果会变动，工程化实现的实时效果。
每一句的结尾是没有标点的，会在第二句结束的时候把第一句的标点补上。
实测如果15s左右没有收到新的识别结果返回，也会自动断开连接。

结果展示：

文档细节：

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模