After that, we downsample all videos with varying frame rates to 5 Frames Per Second (FPS), which helps to fix the window length. Then, 4-second windows with a step of two seconds are formed on the filtered detected voice segments. In case of the EXPR challenge, to obtain the target label at each second, we compute the most frequent frame-wise label. In case of the VA challenge, we utilize all downsampled values. Therefore, each window has four labels and 20 valence/arousal values for the EXPR and VA challenges, respectively.
To enhance the generalizability of the audio models, we employ several augmentation techniques, including polarity inversion, the addition of white noise or variation in audio volume, and Label Smoothing [36]. These techniques help to reduce the confidence level of the models in their emotion predictions.
这段内容主要描述了音频数据的降采样、分段和数据增强过程,以便在情绪识别任务(EXPR 和 VA 任务)中提高模型的泛化能力。以下是详细解释:

1. 视频降采样

为了使视频帧率一致,首先将所有视频降采样至5 帧每秒(FPS)。这一操作可以标准化每秒的数据量,从而在后续处理中固定窗口长度,确保处理流程的一致性。

2. 时间窗口分割

在降采样后的音频段上,划分4 秒的时间窗口,步长为2 秒,形成音频特征块:

  • EXPR 任务:在表情识别(EXPR)任务中,需要为每一秒确定一个标签。为此,统计每秒中出现频率最高的帧标签,作为该秒的标签(例如,如果在 1 秒内 “愤怒” 标签最多,则将其作为该秒的标签)。
  • VA 任务:在效价/唤醒度(VA)任务中,每个窗口内使用所有降采样值,即效价和唤醒度的连续标签。因此,每个 4 秒窗口下会包含 20 个效价和唤醒度值(每秒 5 帧,4 秒即 20 值)。

总结来说:

  • EXPR 任务中,每个 4 秒窗口有 4 个标签(每秒 1 个)。
  • VA 任务中,每个窗口有 20 个效价/唤醒度值(每秒 5 个,持续 4 秒)。

3. 数据增强(增强模型的泛化能力)

为了提高音频模型的泛化能力(即适应不同环境和情绪变化的能力),使用了多种数据增强技术:

  • 极性反转:翻转音频的极性(即将音频信号正负互换),模拟不同的录制环境。
  • 添加白噪声:在音频中加入背景噪声,增强模型对嘈杂环境的适应性。
  • 音量变化:调整音频的音量,使模型能够应对不同音量下的情绪表达。
  • 标签平滑(Label Smoothing):通过平滑处理标签(即对情绪标签的值略微调整),降低模型对某些情绪的过度自信。标签平滑可以减少预测的偏差,让模型的情绪识别更稳健。

这些技术组合起来,有助于增加数据的多样性,避免模型过拟合,从而在不同的情绪和环境中保持较好的表现。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐