1. 音频预处理 (Audio Preprocessing)

语音活动检测

  1. 基本流程:

    • 多媒体文件音频提取
    • 视频帧分析
    • 使用MediaPipe提取面部特征
    • 检测口型变化
  2. 目标说话者识别:

    • 面部标志点提取
    • 口部区域检测
    • 开闭口状态判断

噪声处理

  • 使用Spleeter工具:
    • 背景噪声过滤
    • 多说话者分离
    • 音频质量提升

时序处理

  1. 降采样:

    • 统一采样率:5 FPS
    • 固定窗口长度
  2. 窗口设置:

    • 窗口大小:4秒
    • 步长:2秒
    • EXPR:每秒最频繁标签
    • VA:所有降采样值

数据增强

  • 技术方法:
    • 极性反转
    • 白噪声添加
    • 音量变化
    • 标签平滑处理

2. 视频预处理 (Video Preprocessing)

A. 静态模型预处理

  1. 人脸处理:

    • RetinaFace模型检测
    • 边界扩展15像素
    • 包含完整面部特征
  2. 图像处理:

    • 尺寸调整
    • 像素值归一化
    • 符合模型要求
  3. 数据增强技术:

    • 随机填充
    • 灰度化处理
    • 亮度/对比度/饱和度/色调调整
    • 高斯噪声添加
    • 随机旋转
    • 随机裁剪
    • 图像后处理
    • 锐化调整
    • 直方图均衡化
    • 图像翻转
    • 概率:每种增强0.05
    • 总体增强率:约46%

B. 动态模型预处理

  1. 基本流程:

    • 类似静态处理
    • 额外嵌入归一化
  2. 归一化方法:

    • MinMax缩放:
      • 全局最大最小值
      • 应用于所有实例
    • 每视频MinMax缩放:
      • 单视频最大最小值
      • 仅应用于对应视频
  3. 时序处理:

    • 降采样到5 FPS
    • 固定窗口长度
    • 实验窗口大小:1,2,3,4,6,8秒

3. 技术要点

预处理优化

  1. 计算效率:

    • RetinaFace高效实现
    • 参数量约1.7M
    • 处理速度快
  2. 质量保证:

    • 完整性保护
    • 噪声控制
    • 标准化处理

性能提升

  1. 数据增强:

    • 多样化技术
    • 概率控制
    • 质量保证
  2. 归一化优化:

    • 梯度爆炸防护
    • 训练稳定性
    • 收敛性保证

4. 创新点总结

  1. 处理流程创新:

    • 多模态协同
    • 自适应处理
    • 质量保证
  2. 技术方法创新:

    • 多样化增强
    • 双重归一化
    • 灵活窗口设置
  3. 实现创新:

    • 高效算法
    • 稳定性保证
    • 性能优化

这种详细的预处理方案不仅确保了数据质量,还通过多种技术手段提升了模型的泛化能力和性能表现。特别是在数据增强和归一化方面的创新,为模型训练提供了更好的基础。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐