单目视觉学习（1）

单目视觉（1）note：学习一下单目视觉，本文只代表作者写本文时的想法和理解。限于当时的水平和学习的进展，可能有些错误，望谅解。单目视觉（1）问题提出基本原理单帧测距多帧测距References问题提出人眼观察世界通过两个视角来形成对空间的基本认知。模仿人眼的原理，可以使用多个摄像机同时采集同一空间中的图像，然后通过一定的算法来实现对三维空间的...

xholes

14333人浏览 · 2018-03-25 21:47:42

xholes · 2018-03-25 21:47:42 发布

单目视觉（1）

note：学习一下单目视觉，本文只代表作者写本文时的想法和理解。限于当时的水平和学习的进展，可能有些错误，望谅解。

单目视觉（1）

问题提出

人眼观察世界通过两个视角来形成对空间的基本认知。模仿人眼的原理，可以使用多个摄像机同时采集同一空间中的图像，然后通过一定的算法来实现对三维空间的重建。这就是典型的双目视觉（stereo-vision）问题。由此可以衍生出多视觉（multi-vision）的重建问题。那么如果只有一台摄像机，是否可以呢？通过单个摄像头拍摄的图像来实现三维空间的重建称之为单目视觉。

基本原理

单帧测距

（一）测物体到相机的距离
单目视觉获得的图像本质上是2D的，结合相机的成像模型（初中物理，小孔成像）j就可以获知距离了，前提是你知道物体的真实大小。

小孔成像

case 1: 物体在摄像机的正前方，即相机坐标系的y轴上。
如果物体在摄像机的正前方（光轴上），那么可以做一个简单的公式计算：
$f d = h H (1)$ <script type="math/tex; mode=display" id="MathJax-Element-3"> \frac{f}{d}=\frac{h}{H} \quad (1) </script>
其中f为焦距，d为物体到相机的距离，h为物体在像上的高度，H为物体的实际高度。

焦距是相机的内参数，一旦相机确定，这个数值基本就是确定了。H为物体的实际高度，这个也是可以获取的。 d <script type="math/tex" id="MathJax-Element-4">d</script>为所求，那么 $h$ <script type="math/tex" id="MathJax-Element-5">h</script>的获知就是成了关键。 h <script type="math/tex" id="MathJax-Element-6">h</script>代表了物体所成像的高度。像的获取是通过摄像机内部的感知元件作用后保留下来的，如果知道每个感知元件的物理尺寸( $δ$ <script type="math/tex" id="MathJax-Element-7">\delta</script>)和像中包含的感知元件的个数（ n <script type="math/tex" id="MathJax-Element-8">n</script>），那么就能够得知像的高度 $h = n * δ$ <script type="math/tex" id="MathJax-Element-9">h=n * \delta</script>。那么式子(1)就可以转化为：

f d = n \cdot δ H (2) d = f \cdot H n \cdot δ (3) (1) (2)

case 2：物体在摄像机坐标系的xy平面上有偏移（即在x轴上有值）
那么物体成像并不是在图像的中间部分，而会在中间偏左或者偏右的位置。因为物体并不是在摄像机的正前方，反而存在一个水平方向的夹角 α <script type="math/tex" id="MathJax-Element-11">\alpha</script>。此时光心到像中心（非图像中心）的距离与光心到物体的距离满足case 1的模型。即有：

d' f' l α = f ' \cdot H n \cdot δ (3) = f 2 + l 2 - - - - - - \sqrt (4) = n x \cdot δ (5) = arctan (l f) (6) (3) (4) (5) (6)

f′ f ′ <script type="math/tex" id="MathJax-Element-13">f'</script>表示光心到像中心的距离，

d′ d ′ <script type="math/tex" id="MathJax-Element-14">d'</script>表示光心到物体中心的距离，

l l <script type="math/tex" id="MathJax-Element-15">l</script>表示像中心到图像中心的水平偏移距离,

n_{x}

d = d' \cdot cos α = H \cdot f 2 + ( n x \cdot δ ) 2 - - - - - - - - - - - \sqrt n \cdot δ \cdot f f 2 + ( n x \cdot δ ) 2 - - - - - - - - - - - \sqrt = H \cdot f n \cdot δ (7)

case 3：当物体在z轴上有移动时，即在光轴上下移动。
可以猜想，计算公式也和前两个case相同。

（二）测物体的大小
依据之前推导的公式，如果知道了物体到摄像机的距离，那么其实可以推导出物体的一些尺寸。即：

H = n \cdot δ \cdot d f (8)

多帧测距

多帧测距是通过摄像机拍摄运动的物体获得多幅图像，然后寻找其中相对应的部分计算出像素的相对位移，然后通过相应的算法来测算距离。（感觉有点类似双目视觉，但理论推导可能不一样）

序列图像
由透镜成像原理可知：

1 z 1 + 1 d 1 = 1 f (9) 1 z 2 + 1 d 2 = 1 f (10) h 1 z 1 = H d 1 (11) h 2 z 2 = H d 2 (12) (7) (8) (9) (10)

d 1 \cdot h 1 = d 2 \cdot h 2 (13) (像 大 小 与 距 离 成 反 比)

NOTE:以上都是在理想状况下进行的分析。在实际情况中需要做更多的处理，比如相机标定，图像的校正，变换等。 <script type="math/tex" id="MathJax-Element-21">\color{red}{NOTE:以上都是在理想状况下进行的分析。在实际情况中需要做更多的处理，比如相机标定，图像的校正，变换等。}</script>

References

[1] 单目视觉测距
 [2] OpenCV单目平面测距
 [3] 基于单目视觉的实时测距方法研究

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

xholes

@xholes

已为社区贡献8条内容