论文:《Rethinking on Multi-Stage Networks for Human Pose Estimation》
1.概述

多阶段网络更加适合姿态估计任务,因为该结构可以使得低分辨率的特征和高分辨率的特征重复交叠,兼顾了位置信息和特征抽象信息。

2.MSPN框架结构

在这里插入图片描述
改进1:优化单个stage结构

  • 在现有的多stage网络中,每个stage在进行特征降采样和升采样时,其通道是保持不变的,而不是像Resnet一样随着特征图的减小会相应的增加通道。这种现象就会导致特征丢失。本文每个stage就是一个CPN的globalNet。

改进2:相邻stage特征聚合

  • 每个stage都会对特征图进行降采样和升采样,多个stage就会反复的进行降采样和升采样,这种反复的操作使得特征信息丢失明显,最终导致网络优化困难。作者将相邻阶段的特征进行聚合,以增强特征信息传播能力并降低训练难度。具体的特征聚合方法为:上个阶段中相同size的降采样特征经过11卷积编码后的特征,上个阶段中相同size的升采样特征经过11卷积编码后的特征,以及当前stage的降采样特征。

改进3:多stage由粗到细监督

  • 多stage网络的特点是,每个stage的输出都能作为最终的关键点检测结果。而且随着stage的增多,关键点定位会越来越准。为了使得在前端的stage能够获得更好的知道,作者提出了由粗到细的多分支监督的方式来优化多stage的能力。对于每个stage的特点,采用不同kernel-size的高斯核制作标签,越靠近输入的stage kernel-size越大。
3.参考
https://www.cnblogs.com/easy-hard/p/12153436.html
https://www.lizenghai.com/archives/48418.html
https://zhuanlan.zhihu.com/p/69491267
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐