3D视觉基础概念解释

娱乐--至死

552人浏览 · 2025-07-27 22:36:31

娱乐--至死 · 2025-07-27 22:36:31 发布

1. 3D 点云（Point Cloud）

概念：由大量“点”组成的集合，每个点在三维空间中都有一个 (x, y, z) 坐标。
来源：通常来自深度传感器（如 LiDAR、结构光摄像头）或立体相机计算出的空间点。
作用：点云是三维世界的最原始表示，用于建模物体、场景测量、导航等。
举例：自动驾驶汽车的 LiDAR 扫描，会输出车辆周围的一堆三维点，网格化后就能看出周围障碍物的形状。

2. 深度图（Depth Map）

概念：在一张二维图像的每个像素位置，都记录了从相机到该点的深度（距离）值。
表示：可以看作灰度图：白色（或亮）代表近，黑色（或暗）代表远。
来源：常由双目相机（Stereo）或结构光、飞行时间（ToF）相机直接采集，也可通过算法估计得到。
作用：结合 RGB 图像，可以让计算机“看到”物体远近，用于分割、3D 重建、手势识别等。

3. 多视图几何（Multi-view Geometry）

概念：研究如何从多张不同视角拍摄的二维图像，推断三维场景结构与相机运动的数学框架。
核心思想：利用不同图像中相同特征点的对应关系（匹配）和相机成像模型，恢复出场景的三维形状。
关键工具：基础矩阵（Fundamental Matrix）、本质矩阵（Essential Matrix）、投影矩阵（Projection Matrix）。
应用：三维重建（SfM）、相机轨迹估计、虚实融合（AR）等。

4. 立体匹配（Stereo Matching）

概念：给定一对左右视图（Stereo pair），在图像中找到同一场景点在左右图像中的对应像素。
输出：视差图（disparity map），即左右像素水平偏移量。视差越大（位移越多），表示物体越近。
步骤：
1. 特征提取：比如块匹配、SIFT、深度特征等；
2. 代价计算：测量左右窗口像素差异；
3. 优化与聚合：滤除错误匹配，平滑视差结果。
用途：通过视差反推深度，从而生成深度图，用于机器人避障、自主导航、3D 重建等。

5. 三维重建（3D Reconstruction）

概念：从图像、深度图或点云等数据中，重构出场景或物体的三维模型（如网格、曲面、体素）。
常见方法：
- 基于特征的 SfM（Structure from Motion）：多视图下通过特征匹配恢复相机位姿和稀疏点云；
- MVS（Multi-View Stereo）：在 SfM 基础上密集匹配，生成稠密点云或深度图；
- 体素化/TSDF：将空间划分成小方块（体素），融合多帧深度图生成完整表面；
- 神经渲染（NeRF）：利用神经网络隐式表示体积，实现高质量渲染与重建。
输出：网格模型（Mesh）、纹理、完整稠密点云，或可用于渲染的隐式函数模型。

6. 相机模型（Camera Model, Pinhole Camera）

概念：用数学方法描述相机如何将三维空间点投影到二维图像平面上的过程。
针孔相机（Pinhole Camera）：最简化模型，不考虑镜头畸变，只保留一个“针孔”投影。
作用：理解相机模型是所有几何推导、标定（calibration）、重建算法的基础。

小结

3D 点云：三维空间的点集合。
深度图：每个像素对应一个深度值的灰度图。
多视图几何：多张图像推断三维结构的数学框架。
立体匹配：左右图像对应点的视差计算。
三维重建：把点云/深度/图像数据变成完整三维模型。
相机模型：描述世界点到图像点投影的数学公式。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模