语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检测。目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。

应用场合示例:

用户打电话时,并不是总在占用通话信道。根据传统电话业务的统计,一方用户实际占用通话信道的时间不会超过整个通话时间的40%。这主要包括以下几个方面的原因:一是正在听对方说话;二是由于思考,稍事休息等原因引起的一段话之间的停顿;三是说话中间的停顿,如犹豫,呼吸,口吃等。第一种情况下停顿间隙长而出现频率低;第三种情况停顿间隙短而出现频率高;第二种情况界于一、三种情况之间。语音源的这种特性叫做开关特性,有时也叫话音/静默特性。

在用户没有讲话时,就没有语音分组的发送,从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态,也不发送语音分组。当检测到突发的活动声音时才生成语音信号,并加以传输。运用这种技术能够获得大于50%的带宽。

其实,目前VAD算法的应用很广,例如机器学习语音训练数据模型的获取也是通过VAD算法进行采集

应用注意事项:

在进行静音检测时有两个问题需要注意:一是背景噪声问题,即如何在较大的背景噪声中检测静音;二是前后沿剪切问题。所谓前后沿剪切就是还原语音时,由于从实际讲话开始到检测到语音之间有一定的判断门限和时延,有时语音波形的开始和结束部分会作为静音被丢掉,还原的语音会出现变化,因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。

在实际使用中,如果出现长时间的静默,会使用户感到很不自然。因此实际上接收端常常会在静音期间发送一些分组,从而生成使用户感觉舒服一些的背景噪声,即所谓的舒适噪声。(这一项开发者很容易忽略用户感受)

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐