Teams Bot机器人实时语音识别的多引擎的处理

本文介绍了Teams Bot中新增的语音识别引擎切换功能，支持Azure和Soniox两种方案。Azure方案使用Microsoft.CognitiveServices.Speech.Transcription，支持语音特征识别但费用较高（月费数万美元）。Soniox方案基于WebSocket实现，支持实时音频流处理和说话人分离，返回包含时间戳、置信度和说话人标记的识别结果。两种方案各有特点：Az

withcsharp2

1254人浏览 · 2025-08-24 22:07:53

withcsharp2 · 2025-08-24 22:07:53 发布

之前开发的Teams的Bot 是使用微软的实时语音识别。现在增加了一个选项，可以在Azure 和 Soniox两引擎间切换。

Azure 的实时语音识别

Azure 的实时语音识别使用 Microsoft.CognitiveServices.Speech.Transcription 进行处理。这个质量很不错，而且可以设置每个人的语音特征（wav audio file for creating voice signatures must be 16-bit, 16 kHz sample rate, in single channel (mono) format. The recommended length for each audio sample is between 30 seconds and two minutes. ）。

            byte[] fileBytes = File.ReadAllBytes(fn);
            var content = new ByteArrayContent(fileBytes);
            var client = new HttpClient();
            client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", subscriptionKey);
            var response = await client.PostAsync($"https://signature.{region}.cts.speech.microsoft.com/api/v1/Signature/GenerateVoiceSignatureFromByteArray", content);

            var jsonData = await response.Content.ReadAsStringAsync();
            var result = JsonConvert.DeserializeObject<VoiceSignature>(jsonData);
            return JsonConvert.SerializeObject(result.Signature);

设置了语音特征后就可以在实时语音识别中，自动识别说话者。一切都好，唯一的一个问题就是不便宜，目前一个月的费用有几万美元。

Soniox的实时语音识别

Soniox的实时语音识别引擎，是用WebSocket的，这一点和Azure的差别很大。下面的代码就是初始化识别引擎连接。

 ClientWebSocket ws= new ClientWebSocket();
 ws.ConnectAsync(new Uri(ConversationMgr.instance.SonioxUrl), CancellationToken.None).Wait();

 // Send start request with correct field names
 var startMessage = Encoding.UTF8.GetBytes(Newtonsoft.Json.JsonConvert.SerializeObject(new
 {
     api_key = ConversationMgr.instance.SonioxKey,
     audio_format = ConversationMgr.instance.SonioxAudioFormat,
     sample_rate = int.Parse(ConversationMgr.instance.SonioxSampleRate),
     num_channels = int.Parse(ConversationMgr.instance.SonioxNumChannels),
     model = ConversationMgr.instance.SonioxModel,
     enable_speaker_diarization=true,
     language_hints = ConversationMgr.instance.SonioxLanguageHints.Replace(" ", "").Split(new string[] { "," }, StringSplitOptions.RemoveEmptyEntries)
 }));

 ws.SendAsync(new ArraySegment<byte>(startMessage), WebSocketMessageType.Text, true, CancellationToken.None).Wait();

初始化之后，当收到从机器人收到语音包后，就把包的时间发送到Soniox。

var audioChunk = new ArraySegment<byte>(item.Buff, 0, item.Buff.Length);
await ws.SendAsync(audioChunk, WebSocketMessageType.Binary, true, CancellationToken.None);

同时并行一个任务从 Soniox接受识别的结果：

result = await ws.ReceiveAsync(new ArraySegment<byte>(buffer), CancellationToken.None);

返回的结果如下

{"tokens":[{"text":"Wh","start_ms":540,"end_ms":540,"confidence":0.999,"is_final":false,"speaker":"1"},{"text":"at","start_ms":540,"end_ms":600,"confidence":1,"is_final":false,"speaker":"1"},{"text":" is","start_ms":660,"end_ms":720,"confidence":0.998,"is_final":false,"speaker":"1"},{"text":" y","start_ms":780,"end_ms":840,"confidence":1,"is_final":false,"speaker":"1"},{"text":"our","start_ms":840,"end_ms":900,"confidence":1,"is_final":false,"speaker":"1"},{"text":" best","start_ms":960,"end_ms":1020,"confidence":1,"is_final":false,"speaker":"1"}],"final_audio_proc_ms":0,"total_audio_proc_ms":1800}

{
"tokens": [
{
"text": "Wh",
"start_ms": 540,
"end_ms": 540,
"confidence": 0.999,
"is_final": false,
"speaker": "1"
},
{
"text": "at",
"start_ms": 540,
"end_ms": 600,
"confidence": 1,
"is_final": false,
"speaker": "1"
},
{
"text": " is",
"start_ms": 660,
"end_ms": 720,
"confidence": 0.998,
"is_final": false,
"speaker": "1"
},
{
"text": " y",
"start_ms": 780,
"end_ms": 840,
"confidence": 1,
"is_final": false,
"speaker": "1"
},
{
"text": "our",
"start_ms": 840,
"end_ms": 900,
"confidence": 1,
"is_final": false,
"speaker": "1"
},
{
"text": " best",
"start_ms": 960,
"end_ms": 1020,
"confidence": 1,
"is_final": false,
"speaker": "1"
}
],
"final_audio_proc_ms": 0,
"total_audio_proc_ms": 1800
}

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r