论文题目《An Attention-Based Deep Learning Model for Multiple Pedestrian Attributes Recognition 》

链接:https://arxiv.org/abs/2004.01110

作者单位:清华大学

年份:2020

1. 论文主要解决什么问题?

行人属性预测是一个多任务学习问题。为了共享特征表达,传统的多任务学习方法通常学习特征或者特征子空间的线性组合。但是这种组合排除了通道之间的复杂的相互依赖性。更何况,空间信息交换也很少被考虑。论文提出了协同注意力共享(CAS)模型来提取具有判断力的通道和空间区域,以便在多任务学习中很好地共享特征。

说人话:以前多任务的方法真弱鸡,很多都只是把特征简单相加,不考虑特征通道信息依赖性和空间信息的交互?

2. 论文如何解决问题?

行人属性分类方法中,常用的网络结构如如图1所示:

  • Hard-Sharing 结构,但是可能容易产生负转移问题,也就是说对一个某个行人属性进行预测的时候可能容易被其他属性所影响。
  • Vanilla 结构,它集成了两个独立的网络结构,分别负责预测不同的属性。联系紧密的属性就分成同一个组,由同一个网络负责。但是两个网络之间没有任何的交互,一些有用的相关信息可能没有被利用起来。
  • Soft-Sharing 结构,集成Hard-Sharing 和Vanilla 结构的优点,每一层利用一个模块来决定哪些特征该共享哪些不该共享。

之前的多任务学习的方法,譬如Cross Stich模块和Sluice模块,不同任务之间的特征交互只是通过简单的元素相加操作,忽略了通道信息。而且行人属性通常跟不同的空间位置有较大的关系。因此作者提出了协同注意力共享(CAS)模型来提取具有判断力的通道和空间位置,以便在网络间共享特征。

作者提出的CAS模型如图2所示:

这一种Soft-Sharing 结构,由两个网络及其中间的交互模块组成。上下两个网络结构是一致的,输入特征featfeatfeat 经过GAP(全局平均池化)得到VgV_gVg,然后把VgV_gVg“喂入”全连接层便可得到中间向量VmV_mVm

  • 协同分支(Synergetic Branch):该分支的输入为VshV_{sh}Vsh,它由上面的网络AAA和下面的网络BBB的中间向量VmV_mVm经过全连接层得到的结果。VshV_{sh}Vsh与该层的featfeatfeat进行element−wiseelement-wiseelementwise相乘操作,结果分别记为featAfeat^AfeatAfeatBfeat^{B}featB。然后对featshAfeat^A_{sh}featshAfeatshBfeat^{B}_{sh}featshB进行通道接拼,得到featcatfeat_{cat}featcat。然后concat(Avg(featcat),Max(featcat))concat(Avg(feat_{cat}),Max(feat_{cat}))concat(Avg(featcat),Max(featcat)),对其结果进行卷积操作,结果记为MMM。其中AvgAvgAvgMaxMaxMax分别是通道上的平均值和最大值函数。featcatfeat_{cat}featcat经过卷积得到featsymfeat_{sym}featsym。协同分支的输出便是MMMfeatsymfeat_{sym}featsym了。其中MMM将会被送入到注意力分支。
  • 注意力分支(Attentive Branch):该分支的输入为VaV_aVa,它由VmV_mVm经过全连接层所得到。然后VaV_aVa与协同分支的输出MMM进行element−wiseelement-wiseelementwise相乘,其结果记为AAA
  • 任务分支(Task-specific Branch):该分支的输入为VtV_tVt,它也是由VmV_mVm经过全连接层所得到。然后VaV_aVa与该层的featfeatfeat进行element−wiseelement-wiseelementwise相乘,其结果记为feattfeat_tfeatt
  • 分支聚合:featfeatfeatfeatsymfeat_{sym}featsymfeattfeat_tfeatt进行element−eiseelement-eiseelementeise的相加,其结果与AAA进行element−wiseelement-wiseelementwise相乘。得到的结果将"喂入"下一层网络。

3. 实验结果如何?

  • 结果超过了传统共享单元的方法,与SOTA的相比,也达到了更好的结果。

4.对我们有什么指导意义?

  • 多任务学习中,Soft-Sharing 结构优于Hard-Sharing 结构和Vanilla 结构。

  • 空间信息对于行人属性识别还是很重要的,对特征element−wizeelement-wizeelementwize相加操作可能不太有利用提取空间区域信息,但是concat操作应该还是有用的。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐