什么是音频信号

通常,将人耳可以听到的信号,叫做音频信号(20Hz-20kHz)。

  • 人的发声器官能产生的频段在80-3400Hz左右。
  • 正常人说话的语音频段在300-3000Hz左右。

人耳听觉系统三特性

  1. 人耳对不同频率的灵敏度不同。在2-5KHz的频段信息很容易被人耳听到。
  2. 频率遮蔽效应(FME)。高频信息和低频信息同时出现时,很难听出低频信息。
  3. 时域遮蔽效应(TME)。强信号出现时刻附近的弱信号,很难被听出。

音频编码技术概览

一般,将音频信息分为语音信息和音乐信息两类。

语音的编码技术包括波形编码、参数编码、混合编码等。

音乐的编码技术包括心理声学模型、自适应变换编码、霍夫曼编码等。

波形编码

缩写 全称 释义
PCM Pulse Code Modulation 脉冲编码调制
DPCM Differential Pulse Code Modulation 差分脉冲编码调制
APCM Adaptive Pulse Code Modulation 自适应脉冲编码调制
ADPCM Adaptive Differential Pulse Code Modulation 自适应差分脉冲编码调制

PCM与DPCM的区别:

  • PCM对采样信号进行量化编码。
  • DPCM对实际信号值与预测信号值之差进行量化编码。

ADPCM核心思想:

  • 对差值进行编码预测。
  • 非均匀量化,大量化阶适应大差值,小量化阶适应小差值。

参数编码

缩写 全称 释义
LPC Linear Predictive Coding 线性预测编码

混合编码

缩写 全称 释义
MP-LPC Multi-Pulse-Linear Predictive Coding 多脉冲激励线性预测编码
RP-LPC Regular Pulse Excited-Linear Predictive Coding 规划脉冲激励线性预测编码
CELP Code Excited Linear Prediction 码本激励线性预测编码

感知编码

感知编码器根据可听度来分配所使用的字长,即根据人耳灵敏度进行编码。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐