SLAM中提到的相机位姿到底指什么？——高翔《视觉SLAM十四讲》的一点小错误

问题点：相机坐标是(5,0,0)^T，世界坐标点位置是(100,0,0)^T，相机坐标系下，这个点肯定是100-5，是(95,0,0)^T，但是又因为相机“位姿”是(5,0,0)^T，直接左乘相机“位姿”就得到了第一个结果"Pc=105 0 0，这明显和预期不一样，按照这种T的声明与定义，需要左乘T的逆才能得到预期的结果“Pc3 = 95 0 0 1”（齐次）根据主观习惯，相机在世界坐标系的位姿应

秦伟H

1491人浏览 · 2023-11-15 17:08:51

秦伟H · 2023-11-15 17:08:51 发布

不小心又绕进去了，所以掰一下。

以我个人最直观的理解，假设无旋转，相机在世界坐标系的(5,0,0)^T的位置上，所谓“位姿”，应该反映相机的位置，所以相机位姿应该如下：

    Eigen::Matrix4d T = Eigen::Matrix4d::Identity(); // 假设T是一个4x4的矩阵，初始化为单位矩阵
    T(0, 3) = 5.0;

但是根据我对位姿的这个理解，再结合高翔博士的《十四讲》第五章，第二版P99，世界坐标系的点变换到相机坐标系，是直接“左乘”“相机位姿”，Pc=T*Pw，那么这就出现了一些小问题

问题点：相机坐标是(5,0,0)^T，世界坐标点位置是(100,0,0)^T，相机坐标系下，这个点肯定是100-5，是(95,0,0)^T，但是又因为相机“位姿”是(5,0,0)^T，直接左乘相机“位姿”就得到了第一个结果"Pc=105 0 0"，这明显和预期不一样，按照这种T的声明与定义，需要左乘T的逆才能得到预期的结果“Pc3 = 95 0 0 1”（齐次）

所以高翔博士提到的位姿是可以直接左乘的，和我认为的位姿是逆的关系。

根据习惯定义，想把Pw转换为Pc，应该是Pc=Tcw*Pw，高翔博士称为位姿的是Tcw。

根据主观习惯，相机在世界坐标系的位姿应该是Twc。想获得Pc应该是Pc=Twc^(-1)*Pw。

所以，我们产生了两种位姿描述。哪一种是正确的呢？很遗憾，我目前没有答案，网上搜到的一些关于位姿的解释则更加“和稀泥”，Tcw和Twc两种都可以叫位姿。根据有限的学识，我只能说我们清楚什么变换能干什么，能通过调整用法获得自己想要的结果就好，个别说法不能较真。

根据“和稀泥”博客的提醒，高翔博士也用Twc表示位姿？仔细看这个博客，我又去翻了一下书joinMap.cpp，果真如此。而我发现的投影公式是Tcw，所以，高翔博士把两种位姿混用了？他在讲相机投影时使用Tcw作为位姿，在实现joinMap.cpp时使用Twc作为位姿。或者说，他用相机位姿把世界点投影到相机点，也用相机位姿把相机点投影到世界点！！！