深度学习声纹识别_声纹识别发展综述

本文主要围绕几个主题展开：声纹识别的发展历程目前的主流方向，基于深度学习的声纹识别最后介绍一下相关的其他语音技术首先我们来看下声纹的概念及为什么可用于识别声音就是一段波，声纹就是携带了信息的声波频谱声纹特征与其他生物特征的对比及特点声纹识别在产品上的本质主要就是以下两种工作方式： 1比1 和 1比N工作流程大致如下：提取语音，预处理，提取特征利用训练好的模型，计算该语音对应的声纹模型或者声纹特征最

Hosico猫

1570人浏览 · 2021-01-09 20:07:58

Hosico猫 · 2021-01-09 20:07:58 发布

本文主要围绕几个主题展开：

声纹识别的发展历程
目前的主流方向，基于深度学习的声纹识别
最后介绍一下相关的其他语音技术

首先我们来看下声纹的概念及为什么可用于识别

声音就是一段波，声纹就是携带了信息的声波频谱

声纹特征与其他生物特征的对比及特点

声纹识别在产品上的本质主要就是以下两种工作方式： 1比1 和 1比N

工作流程大致如下：

提取语音，预处理，提取特征
利用训练好的模型，计算该语音对应的声纹模型或者声纹特征
最后进行相似度打分，得到结果

由此我们可以看出声纹识别主要就是三大部分：特征，模型，得分。下面根据这三大要素分别阐述

声纹识别三大部分：特征，模型，得分

首先看下这三大部分的整体技术流派和技术发展路线

语音特征介绍

声纹模型的衍进

传统的声纹识别主要是基于统计思想和概率论，结合声学，信号学，机器学习等算法

2012年，跨入了以deep learning 为主线的算法，DNN-based系统陆续出现，并基于深度学习领域的新思想持续改良

近两年发展起来的End-to-End 端到端系统，代表：2018年谷歌百度的相关论文

可以参考回答

声纹识别算法有哪几种？www.zhihu.com

https://www.zhihu.com/question/53707809/answer/316946465

基于深度学习的声纹技术

上面的网络结构中，有一个Statistics Pooling Layer，负责将Frame-level Layer，Map到Segment-Level Layer，计算frame-level Layer的Mean和standard deviation。TDNN是时延架构，Output Layer可以学习到Long-Time特征，所以x-vector可以利用短短的10s左右的语音，捕捉到用户声纹信息，在短语音上拥有更强的鲁棒性。

其他语音技术介绍

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda