1、G.729编码前的原始音频是8k采样率,16bit数据

2、G.729编码时,通过算法,对原始音频进行压缩,压缩率为16:1

3、压缩是按帧进行的,1帧的时间是10ms。10ms的原始数据共80个样品x16bit=1280 bit,通过算法编码之后,得到新的数据为80bit(10个字节Byte)。

4、每一帧的处理时间控制为5ms,则其时延相当于10ms+5ms=15ms

最终音频流相当于 8kbps。

注:G.729选择8k采样率,也是基于人讲话声音频率通常落在500Hz-3kHz(另一说<3.4kHz)。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐