Involution论文解读：从卷积变换出的神经网络新算子

这篇文章来自CVPR2021，作者是港科大计算机系在读，本科毕业于清华，个人主页。Motivation既然是从卷积出发，我们需要先梳理卷积。卷积的操作如上图所示，是目前神经网络里最基础的算子。它具备两个特性：空间不变性因为卷积网络采用滑窗的形式，所以对于一张图片的各个部分，是共享卷积核参数的，相比于全连接网络，它在某个像素处，只考虑一个小邻域的信息，相当于加了一个很强的正则。这个特性的好处是大大降

爱吃糖的小北

1708人浏览 · 2021-05-20 11:53:12

爱吃糖的小北 · 2021-05-20 11:53:12 发布

在这里插入图片描述
这篇文章来自CVPR2021，作者是港科大计算机系在读，本科毕业于清华，个人主页。

Motivation

既然是从卷积出发，我们需要先梳理卷积。
在这里插入图片描述
卷积的操作如上图所示，是目前神经网络里最基础的算子。
它具备两个特性：

空间不变性
因为卷积网络采用滑窗的形式，所以对于一张图片的各个部分，是共享卷积核参数的，相比于全连接网络，它在某个像素处，只考虑一个小邻域的信息，相当于加了一个很强的正则。
这个特性的好处是大大降低了图像处理所需的参数量，以及使得网络输出具有平移不变性，也就是某一个特征不管出现在图像的某处，都会得到相同的输出。
但是，平移不变性带来的坏处在于网络忽略了图像特征的位置信息，同时也受制于卷积核的大小使得网络无法提取远距离的像素相关性。
通道特异性
另一个特性是通道特异性，意思是每个输出通道来自于同一个卷积核，如图（来源见水印）：

如果一个Kernel的size是 $K\times K \times C$ 的，那么我们把它展开成 $C\times K^2$ 的矩阵，在C很大的时候，因为矩阵的秩最大不超过 $K^2$ ，所以其中一定有信息的冗余。

Dao

网络设计的本质在于分配算力，而卷积显然是将算力更多地分配在通道之间。
但是从人的视觉出发，我们更关注像素空间的联系，所以卷积有一定的不合理性。

Involution

作者基于此，给出了一种和卷积对偶的算子，称为内卷。
在这里插入图片描述
这张图说明了Involution的工作流程：对某一处的像素（图中红色部分），首先用∅函数（一般是某种线性变换，在论文中是BottleNeck形式，即一种1x1卷积的组合生成特定大小的向量）生成特定大小的权重向量，然后再用一种变换H（最一般的形式是重新排列）将权重展开成一个kernel，最后在通道维度上延展（直接复制），得到K×𝐶×𝐶的卷积核，与原图作卷积操作，得到输出。

Experiments

作者的实验分布很广，就不一一罗列了，主要有一个很有意思的地方：完全用Invo代替Conv并不能得到很好的效果，而是Conv作Head，Invo作Neck效果更好，那么像素空间信息的整合到底是在哪一步更重要呢？

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

pry-rails源码探秘：Rails控制台增强插件的实现原理

pry-rails是一款为Rails >= 3应用提供Pry控制台支持的增强插件，它通过替换默认的IRB控制台，为开发者带来更强大的交互式编程体验。本文将深入剖析pry-rails的实现原理，帮助开发者理解其工作机制和核心功能。## Railtie：Rails集成的核心pry-rails的核心集成逻辑位于[lib/pry-rails/railtie.rb](https://link.git

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came