计算机视觉中Transformer的应用，论文精选

Transformer论文精选简介2D视觉目标检测图像分类目标追踪语义分割图像合成动作识别3D视觉点云处理运动建模人体建模简介个人建议，在不断学习深度学习知识的时候，通常现有的教材教程出现的算法都是几年前研究的了，我们也应该不断去学习新的算法，准确率效果更好的，学习新的关键技术，通常最直接的方法就是看论文，找到想看的英文论文，如果看英语太麻烦了，最简单办法就是复制英文论文标题，去网站搜索标题就行，

姜君泽

5150人浏览 · 2021-12-14 14:57:02

姜君泽 · 2021-12-14 14:57:02 发布

Transformer论文精选

简介
2D视觉
3D视觉

简介

个人建议，在不断学习深度学习知识的时候，通常现有的教材教程出现的算法都是几年前研究的了，我们也应该不断去学习新的算法，准确率效果更好的，学习新的关键技术，通常最直接的方法就是看论文，找到想看的英文论文，如果看英语太麻烦了，最简单办法就是复制英文论文标题，去网站搜索标题就行，有专门的博主对论文已经做好翻译的文章。

在过去的一年里，《注意力就是你所需要的》中的Transformer被很多人所关注。除了在翻译质量上产生重大改进外，它还为许多其他NLP任务提供了一个新的架构。这篇论文本身写得非常清楚，但传统的观点是，它的正确实现相当困难。

《注意力就是你所需要的》文章链接：
Attention Is All You Need

在计算机视觉领域，CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构。最早在在一系列序列建模任务中，Transformer展现出可以替代RNN的强大能力。Transformer弥补了RNN最明显的缺点：RNN内部按照时间步进行计算的方式使得它们没有办法实现并行计算。Transformer亦通过自注意力机制应对梯度消失问题。

于是逐渐的Transformer结构也应用到了视觉项目中，

为什么使用transformer结构：

Transformer被证明是一个简单和可扩展的框架，用于计算机视觉任务，如图像识别、分类和分割，或仅仅学习全局图像表示。
与传统方法相比，在训练效率上具有显著优势。在架构上，可以采用纯Transformer的方式使用，也可以与cnn结合使用混合的方式使用。
它也面临着挑战，比如在DETR中检测小目标的性能较低，在Vision Transformer (ViT)中，当预训练数据集较小时，性能也不是很好。
Transformer正在成为学习序列数据(包括文本、图像和时间序列数据)的更通用的框架。

下面是针对不同视觉任务下精选的论文

2D视觉

目标检测

图像分类

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

目标追踪

TransTrack: Multiple Object Tracking with Transformer

语义分割

图像合成

Taming Transformers for High-Resolution Image Synthesis

动作识别

Video Action Transformer Network

3D视觉

点云处理

运动建模

人体建模

End-to-End Human Pose and Mesh Reconstruction with Transformers

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

解决Rust版本管理难题：gh_mirrors/ru/rust-toolchain高级用法与实战案例

gh_mirrors/ru/rust-toolchain是一款简洁高效的GitHub Action工具，专为Rust开发者设计，能够快速安装和管理Rust工具链，解决多版本共存、环境配置复杂等常见问题，让Rust项目构建过程更加流畅。## 🚀 为什么选择gh_mirrors/ru/rust-toolchain？在Rust开发中，不同项目可能需要不同版本的Rust编译器，手动管理多个工具链

魔乐社区

如何使用IconGenerator快速创建符合Apple人机界面指南的应用图标

IconGenerator是一款专为macOS用户设计的免费应用图标生成工具，能够帮助开发者和设计师轻松创建符合Apple人机界面指南的各种尺寸应用图标。无论是iOS、macOS还是watchOS应用，只需简单几步，即可生成完整的图标套件，省去手动调整尺寸的繁琐过程。## 为什么选择IconGenerator？对于苹果生态开发者来说，制作应用图标往往是一项耗时的工作。Apple的人机界面指

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came