#今日论文推荐# ECCV 2022 | SmoothNet:用神经网络代替平滑滤波器,不用重新训练才配叫“即插即用”
姿态估计模型在实际工程部署中,大家经常会遇见的一个问题是:模型在单张图片上表现得好好的,但到了视频或摄像头上预测结果就会开始出现抖动,这显然不是我们希望看到的。
#今日论文推荐# ECCV 2022 | SmoothNet:用神经网络代替平滑滤波器,不用重新训练才配叫“即插即用”
对于视频姿态估计任务中的预测抖动,近年来的解决方案大致可以分为两派:learning-based模型和低通滤波器。
learning-based方法一般是利用一个时空模型同时优化每帧的预测精度和时间维度上的预测稳定性,比较常见的有TCN和RNN,不过性能一直不能得到很好的保证。
低通滤波器方案,如指数滑动平均滤波和卡尔曼滤波,尽管理论和工程实现上都非常成熟了,但由于姿态估计模型的抖动是不均匀的,在一些场景下抖动会非常严重,而其他场景抖动又不太强,所以滤波器的参数很难调节,常常面临艰难的trade-off,而且一旦滤波强度太高还会导致输出结果存在延迟,无法保证实时性。
本文通过对抖动问题进行分析,总结出比较剧烈的抖动通常会连续性地出现在低画质、遮挡、罕见姿态(缺少数据)的情况,并提出了一个简单的全连接网络来建模时间维度上的长距离关系。
与时空模型不同之处在于,这是一个纯时间维度建模的模型,而且有着非常强的跨模型、跨数据集迁移性。
论文题目:SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos
详细解读:https://www.aminer.cn/research_report/62df6de77cb68b460ff4489f
https://www.aminer.cn/research_report/62df6de77cb68b460ff4489f
AMiner链接:https://www.aminer.cn/?f=cs
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)