VGGT：一种端到端的视觉几何 Transformer ——论文解读与思考

VGGT提出了一种基于Transformer的全新3D重建方法，通过单次前向传播直接预测相机参数、深度图和点云等几何信息，无需传统优化流程。该方法采用交替注意力机制，联合训练多任务，在0.2秒内完成推理，性能超越需要数秒优化的现有方法。与3D Gaussian Splatting专注于渲染不同，VGGT专攻几何重建，可作为其前端提供可靠几何输入。该研究为快速、准确的3D重建提供了新思路，有望成为几

北栀之夏

769人浏览 · 2025-12-19 03:20:11

北栀之夏 · 2025-12-19 03:20:11 发布

论文标题：VGGT: Visual Geometry Grounded Transformer
作者：Oxford VGG × Meta AI
时间：2025
论文地址：arXiv:2503.11651
代码：https://github.com/facebookresearch/vggt

VGGT Visual Geometry Grounded T…

一、研究背景：3D 重建为何仍然“慢而复杂”？

长期以来，三维重建主要依赖 Structure from Motion（SfM） 和 Multi-view Stereo（MVS） 等几何方法。这类方法通常包含：

特征匹配
三角化
Bundle Adjustment（BA） 等迭代优化

虽然精度较高，但存在明显问题：

推理速度慢
工程流程复杂
对后处理与参数调节依赖严重

近年来，DUSt3R、MASt3R 等深度方法开始尝试端到端建模，但仍然依赖测试时的几何优化或全局对齐。

VGGT 的核心问题是：

是否可以完全依靠神经网络，在一次前向传播中直接恢复场景的完整 3D 几何属性？

二、VGGT 的核心思想

VGGT（Visual Geometry Grounded Transformer）提出了一种非常激进但简洁的方案：

使用一个大规模 Transformer，在单次前向推理中同时预测所有关键 3D 几何信息。

具体包括：

相机内参与外参
多视角深度图
像素级点图（Point Map）
3D 点跟踪特征

整个过程不需要 BA、不需要几何优化、不需要额外后处理，推理时间可控制在 0.2 秒级别

VGGT Visual Geometry Grounded T…

。三、模型结构简述

1️⃣ 输入与输出

输入：

1 张、2 张，甚至上百张同一场景的 RGB 图像（顺序基本无关）

输出（对每一帧）：

相机参数
深度图
点图（统一在参考坐标系中）
用于跨视角点跟踪的特征

这些输出本身已经构成了一个显式的三维几何描述。

2️⃣ Transformer 主干：交替注意力（Alternating Attention）

VGGT 采用标准 Transformer 结构，但引入了一个关键改进：

Frame-wise Attention：建模单帧内部结构
Global Attention：建模多视角之间的几何一致性

两者交替堆叠，在效率和多视角建模能力之间取得平衡（论文中 24 层效果最好）。

3️⃣ 多任务联合训练

VGGT 并非只预测单一几何量，而是同时学习相机、深度、点图与跟踪特征。
实验表明，多任务联合监督能显著提升点云与几何质量。

四、实验效果概览

VGGT 在多个任务上取得了SOTA 或接近 SOTA的效果：

相机位姿估计：显著优于 DUSt3R、MASt3R，且速度更快
多视角深度估计：在无 GT 相机条件下表现接近有监督方法
点云重建：前向预测即可超过依赖全局对齐的方法
点跟踪 / 图像匹配：作为 backbone 可显著增强下游模型

尤其值得注意的是：

VGGT 在不做任何优化的情况下，往往已经优于需要数秒甚至数十秒优化的方法。

五、VGGT 和 3D Gaussian Splatting 的本质区别

这是很多读者最容易混淆的地方。

1️⃣ VGGT 在做什么？

VGGT 的本质是：

三维几何感知与重建模型

它关心的是：

场景在 3D 空间中的结构
相机与物体的几何关系
多视角的一致性

VGGT 不做渲染，也不学习任何 3D 表示参数。

2️⃣ 3D Gaussian Splatting 在做什么？

3DGS 的目标是：

构建一种适合高质量、可微、实时渲染的 3D 表示

它通过优化大量高斯参数，使新视角渲染结果与真实图像一致。
3DGS 更关注渲染质量，而非几何是否严格正确。

3️⃣ 二者的关系

维度	VGGT	3DGS
核心目标	几何重建	渲染与表示
是否前向	是	否（需优化）
是否输出几何	是	间接
是否渲染	否	是

因此：

VGGT 并不是用神经网络“取代高斯”，而是为 3DGS 提供更可靠的几何前端。

六、一个更合理的系统视角

从整体系统来看，更合理的流程是：

多视角图像 ↓ VGGT（几何前端） ↓ 相机参数 + 点云 / 深度 ↓ 3D Gaussian Splatting（表示与渲染） ↓ 高质量新视角合成

在这种结构下：

VGGT 负责“把几何问题解决好”
3DGS 负责“把场景渲染得好看”

七、总结与个人理解

VGGT 提供了一种非常有启发性的范式：

让神经网络直接学习视觉几何，而不是把几何留给昂贵的后处理优化。

它并不会取代 3D Gaussian Splatting、NeRF 等方法，而更可能成为它们的几何前端，尤其在：

快速重建
稀疏视角
几何可信度要求高的场景

中具有重要价值。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模