[MOVE]-音频翻唱检索论文笔记
研究Music Information Retrieval (MIR)方向中的Cover song identification任务,减少人工特征和对齐算法的使用,本文提出MOVE网络来检索相同的音乐。
·
论文名称:ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS(2020ICASSP)
论文地址:https://arxiv.org/abs/1910.12551
论文代码:https://github.com/furkanyesiler/move
背景
研究Music Information Retrieval (MIR)方向中的Cover song identification任务,减少人工特征和对齐算法的使用,本文提出MOVE网络来检索相同的音乐。
模型流程

- 模型输入:采用的crema-PCP特征(实验不采用该特征,所以没仔细看)。
- 模型结构:
- Expanding the receptive field:max-pool层之后的conv用于抽取高层音频特征,无dilation的conv层=>在没有扩展时序上下文的情况下编码高层非线性特征;有dilation的conv层=>增加感受野,20、13是在人类能接受范围内(挺牵强)
- Summarizing temporal content:提出multi-channel adaptive attention mechanism,将channel分成两部分,一部分采用类attention机制,用auto-pool(介于max、averag pool,是一个非线性、可学习的pool层)让模型学会时序上每个step的重要性,结果经过softmax与另外一部分对位乘得到最终的音频特征。
- Standardizing embedding components:采用triplet loss训练,需要注意音频特征所在高维空间的体积,如向量distance的大小跟margin不成比例,会极大影响模型性能,因此在模型的输出特征上增加一层非参数的bn层,从而得到一个零均值、单位方差的音频特征。
- 模型训练方法:采用triplet loss训练,在线hard triplet mining,例如batch=64,则分配16个类别的音频,每个类别4首歌,每首歌作为anchor 挑选最大distance为pos,挑选最小distance为neg。(尽管挑选hard会让模型陷于局部最小值,但是在batch里面挑选hard,可视为"moderate",不是全局性的hard选择)
模型效果
消融实验

模型效果

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)