VGGT:一种端到端的视觉几何 Transformer ——论文解读与思考
VGGT提出了一种基于Transformer的全新3D重建方法,通过单次前向传播直接预测相机参数、深度图和点云等几何信息,无需传统优化流程。该方法采用交替注意力机制,联合训练多任务,在0.2秒内完成推理,性能超越需要数秒优化的现有方法。与3D Gaussian Splatting专注于渲染不同,VGGT专攻几何重建,可作为其前端提供可靠几何输入。该研究为快速、准确的3D重建提供了新思路,有望成为几
论文标题:VGGT: Visual Geometry Grounded Transformer
作者:Oxford VGG × Meta AI
时间:2025
论文地址:arXiv:2503.11651
代码:https://github.com/facebookresearch/vggtVGGT Visual Geometry Grounded T…
一、研究背景:3D 重建为何仍然“慢而复杂”?
长期以来,三维重建主要依赖 Structure from Motion(SfM) 和 Multi-view Stereo(MVS) 等几何方法。这类方法通常包含:
-
特征匹配
-
三角化
-
Bundle Adjustment(BA) 等迭代优化
虽然精度较高,但存在明显问题:
-
推理速度慢
-
工程流程复杂
-
对后处理与参数调节依赖严重
近年来,DUSt3R、MASt3R 等深度方法开始尝试端到端建模,但仍然依赖测试时的几何优化或全局对齐。
VGGT 的核心问题是:
是否可以完全依靠神经网络,在一次前向传播中直接恢复场景的完整 3D 几何属性?
二、VGGT 的核心思想
VGGT(Visual Geometry Grounded Transformer)提出了一种非常激进但简洁的方案:
使用一个大规模 Transformer,在单次前向推理中同时预测所有关键 3D 几何信息。
具体包括:
-
相机内参与外参
-
多视角深度图
-
像素级点图(Point Map)
-
3D 点跟踪特征
整个过程不需要 BA、不需要几何优化、不需要额外后处理,推理时间可控制在 0.2 秒级别
VGGT Visual Geometry Grounded T…
。三、模型结构简述
1️⃣ 输入与输出
输入:
-
1 张、2 张,甚至上百张同一场景的 RGB 图像(顺序基本无关)
输出(对每一帧):
-
相机参数
-
深度图
-
点图(统一在参考坐标系中)
-
用于跨视角点跟踪的特征
这些输出本身已经构成了一个显式的三维几何描述。
2️⃣ Transformer 主干:交替注意力(Alternating Attention)
VGGT 采用标准 Transformer 结构,但引入了一个关键改进:
-
Frame-wise Attention:建模单帧内部结构
-
Global Attention:建模多视角之间的几何一致性
两者交替堆叠,在效率和多视角建模能力之间取得平衡(论文中 24 层效果最好)。
3️⃣ 多任务联合训练
VGGT 并非只预测单一几何量,而是同时学习相机、深度、点图与跟踪特征。
实验表明,多任务联合监督能显著提升点云与几何质量。
四、实验效果概览
VGGT 在多个任务上取得了SOTA 或接近 SOTA的效果:
-
相机位姿估计:显著优于 DUSt3R、MASt3R,且速度更快
-
多视角深度估计:在无 GT 相机条件下表现接近有监督方法
-
点云重建:前向预测即可超过依赖全局对齐的方法
-
点跟踪 / 图像匹配:作为 backbone 可显著增强下游模型
尤其值得注意的是:
VGGT 在不做任何优化的情况下,往往已经优于需要数秒甚至数十秒优化的方法。
五、VGGT 和 3D Gaussian Splatting 的本质区别
这是很多读者最容易混淆的地方。
1️⃣ VGGT 在做什么?
VGGT 的本质是:
三维几何感知与重建模型
它关心的是:
-
场景在 3D 空间中的结构
-
相机与物体的几何关系
-
多视角的一致性
VGGT 不做渲染,也不学习任何 3D 表示参数。
2️⃣ 3D Gaussian Splatting 在做什么?
3DGS 的目标是:
构建一种适合高质量、可微、实时渲染的 3D 表示
它通过优化大量高斯参数,使新视角渲染结果与真实图像一致。
3DGS 更关注渲染质量,而非几何是否严格正确。
3️⃣ 二者的关系
| 维度 | VGGT | 3DGS |
|---|---|---|
| 核心目标 | 几何重建 | 渲染与表示 |
| 是否前向 | 是 | 否(需优化) |
| 是否输出几何 | 是 | 间接 |
| 是否渲染 | 否 | 是 |
因此:
VGGT 并不是用神经网络“取代高斯”,而是为 3DGS 提供更可靠的几何前端。
六、一个更合理的系统视角
从整体系统来看,更合理的流程是:
多视角图像 ↓ VGGT(几何前端) ↓ 相机参数 + 点云 / 深度 ↓ 3D Gaussian Splatting(表示与渲染) ↓ 高质量新视角合成
在这种结构下:
-
VGGT 负责“把几何问题解决好”
-
3DGS 负责“把场景渲染得好看”
七、总结与个人理解
VGGT 提供了一种非常有启发性的范式:
让神经网络直接学习视觉几何,而不是把几何留给昂贵的后处理优化。
它并不会取代 3D Gaussian Splatting、NeRF 等方法,而更可能成为它们的几何前端,尤其在:
-
快速重建
-
稀疏视角
-
几何可信度要求高的场景
中具有重要价值。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐




所有评论(0)