哈喽大家好,上面几篇做法是提取的对数mel谱然后用VGG做embedding特征,是否靠谱不得而知,但效果很差是明显的,寡人猜测原因:1.VGG训练的数据很短,很干净,没有其他杂音;2.其他细节问题,比如参数的微调;3.其他特征??

很多人骂我不分享代码,其实都是基础的东西,没有啥技术含量,这里分享下python一个版本stft【np中当然有直接的函数,这个版本也有依赖】。今天下午我有搜索下“音频分类在视频内容方面的应用”,也下载了很多毕业论文,过年看,没时间玩了。

不知道豪言壮志能不能实现【吹出去的牛逼实现了吗??回家就不带电脑,只看论文可以不?拭目以待,等我来还债】

Flag立下了,实现不了就让我还单着,年后见!!!

待续。。。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐