论文标题:VGGT: Visual Geometry Grounded Transformer
作者:Oxford VGG × Meta AI
时间:2025
论文地址:arXiv:2503.11651
代码https://github.com/facebookresearch/vggt

VGGT Visual Geometry Grounded T…


一、研究背景:3D 重建为何仍然“慢而复杂”?

长期以来,三维重建主要依赖 Structure from Motion(SfM)Multi-view Stereo(MVS) 等几何方法。这类方法通常包含:

  • 特征匹配

  • 三角化

  • Bundle Adjustment(BA) 等迭代优化

虽然精度较高,但存在明显问题:

  • 推理速度慢

  • 工程流程复杂

  • 对后处理与参数调节依赖严重

近年来,DUSt3R、MASt3R 等深度方法开始尝试端到端建模,但仍然依赖测试时的几何优化或全局对齐

VGGT 的核心问题是:

是否可以完全依靠神经网络,在一次前向传播中直接恢复场景的完整 3D 几何属性?

二、VGGT 的核心思想

VGGT(Visual Geometry Grounded Transformer)提出了一种非常激进但简洁的方案:

使用一个大规模 Transformer,在单次前向推理中同时预测所有关键 3D 几何信息。

具体包括:

  • 相机内参与外参

  • 多视角深度图

  • 像素级点图(Point Map)

  • 3D 点跟踪特征

整个过程不需要 BA、不需要几何优化、不需要额外后处理,推理时间可控制在 0.2 秒级别

VGGT Visual Geometry Grounded T…

。三、模型结构简述

1️⃣ 输入与输出

输入

  • 1 张、2 张,甚至上百张同一场景的 RGB 图像(顺序基本无关)

输出(对每一帧)

  • 相机参数

  • 深度图

  • 点图(统一在参考坐标系中)

  • 用于跨视角点跟踪的特征

这些输出本身已经构成了一个显式的三维几何描述

2️⃣ Transformer 主干:交替注意力(Alternating Attention)

VGGT 采用标准 Transformer 结构,但引入了一个关键改进:

  • Frame-wise Attention:建模单帧内部结构

  • Global Attention:建模多视角之间的几何一致性

两者交替堆叠,在效率和多视角建模能力之间取得平衡(论文中 24 层效果最好)。

3️⃣ 多任务联合训练

VGGT 并非只预测单一几何量,而是同时学习相机、深度、点图与跟踪特征。
实验表明,多任务联合监督能显著提升点云与几何质量。

四、实验效果概览

VGGT 在多个任务上取得了SOTA 或接近 SOTA的效果:

  • 相机位姿估计:显著优于 DUSt3R、MASt3R,且速度更快

  • 多视角深度估计:在无 GT 相机条件下表现接近有监督方法

  • 点云重建:前向预测即可超过依赖全局对齐的方法

  • 点跟踪 / 图像匹配:作为 backbone 可显著增强下游模型

尤其值得注意的是:

VGGT 在不做任何优化的情况下,往往已经优于需要数秒甚至数十秒优化的方法。

五、VGGT 和 3D Gaussian Splatting 的本质区别

这是很多读者最容易混淆的地方。

1️⃣ VGGT 在做什么?

VGGT 的本质是:

三维几何感知与重建模型

它关心的是:

  • 场景在 3D 空间中的结构

  • 相机与物体的几何关系

  • 多视角的一致性

VGGT 不做渲染,也不学习任何 3D 表示参数。

2️⃣ 3D Gaussian Splatting 在做什么?

3DGS 的目标是:

构建一种适合高质量、可微、实时渲染的 3D 表示

它通过优化大量高斯参数,使新视角渲染结果与真实图像一致。
3DGS 更关注渲染质量,而非几何是否严格正确。

3️⃣ 二者的关系

维度 VGGT 3DGS
核心目标 几何重建 渲染与表示
是否前向 否(需优化)
是否输出几何 间接
是否渲染

因此:

VGGT 并不是用神经网络“取代高斯”,而是为 3DGS 提供更可靠的几何前端。

六、一个更合理的系统视角

从整体系统来看,更合理的流程是:


多视角图像 ↓ VGGT(几何前端) ↓ 相机参数 + 点云 / 深度 ↓ 3D Gaussian Splatting(表示与渲染) ↓ 高质量新视角合成

在这种结构下:

  • VGGT 负责“把几何问题解决好”

  • 3DGS 负责“把场景渲染得好看”

七、总结与个人理解

VGGT 提供了一种非常有启发性的范式:

让神经网络直接学习视觉几何,而不是把几何留给昂贵的后处理优化。

它并不会取代 3D Gaussian Splatting、NeRF 等方法,而更可能成为它们的几何前端,尤其在:

  • 快速重建

  • 稀疏视角

  • 几何可信度要求高的场景

中具有重要价值。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐