【记录读论文时遇到的一些算法7】—— 点云主成分分析

principal components analysis：主成分分析 PCA1.PCA2.证明3.总结4.Kernel PCA5.证明6.总结参考文献1.PCA主成分分析(Principle Component Analysis，PCA)，是一种多变量统计分析方法，也是数据降维和可视化的常用方法。PCA的原理是将原矩阵投影到一个新的正交坐标系下，且通过依次选择新坐标轴的方向，使得矩阵在新坐标轴上

LingbinBu

820人浏览 · 2022-05-23 23:34:29

LingbinBu · 2022-05-23 23:34:29 发布

principal components analysis：主成分分析 PCA

1.PCA
2.证明
3.总结
4.Kernel PCA
5.证明
6.总结
参考文献

1.PCA

主成分分析(Principle Component Analysis，PCA)，是一种多变量统计分析方法，也是数据降维和可视化的常用方法。PCA的原理是将原矩阵投影到一个新的正交坐标系下，且通过依次选择新坐标轴的方向，使得矩阵在新坐标轴上的投影(主成分的样本值)的方差最大

2.证明

输入: $x_{i} \in \mathbb{R}^{n}, i=1,2, \cdots, m$

输出: 主成分向量 $z_{1}, z_{2}, \cdots, z_{k} \in \mathbb{R}^{n}, k \leq n$

对输入的数据进行归一化：
$\tilde{X}=\left[\tilde{x}_{1}, \cdots, \tilde{x}_{m}\right], \tilde{x}_{i}=x_{i}-\bar{x}, i=1, \cdots, m \quad \bar{x}=\frac{1}{m} \sum_{i=1}^{m} x_{i}$
PCA就是将这些点投影到方向为 $\in \mathbb{R}^{n},\|z\|_{2}=1$ 上时，保证得到最大的方差，也就是在这个方向上分布地最散：
$\alpha_{i}=\tilde{x}_{i}^{T} z, i=1, \cdots, m$
投影得到的平均方差为：
$\frac{1}{m} \sum_{i=1}^{m} \alpha_{i}^{2}=\frac{1}{m} \sum_{i=1}^{m} z^{T} \tilde{x}_{i} \tilde{x}_{i}^{T} z=\frac{1}{m} z^{T} \tilde{X} \tilde{X}^{T} z$
所以，最大化上式：
$\max _{z \in R^{n}} z^{T}\left(\tilde{X} \tilde{X}^{T}\right) z, \text { s.t.: }\|z\|_{2}=1$
根据瑞利熵：
$\lambda_{\min }(A) \leq \frac{x^{T} A x}{x^{T} x} \leq \lambda_{\max }(A), \forall x \neq 0$
根据谱定理：
$\Lambda U^{T}=\sum_{i=1}^{n} \lambda_{i} u_{i} u_{i}^{T}, \Lambda=\operatorname{diag}\left(\lambda_{1}, \cdots, \lambda_{n}\right)$
最后PCA：
$H=\tilde{X} \tilde{X}^{T}=U_{r} \Sigma^{2} U_{r}^{T}$
第一个主要向量 $z_{1}=u_{1}, u_{1}$ 便是 $U_{r}$ 的第一列。
Perform SVD on $\tilde{X}$ :
$\quad \tilde{X}=U_{r} \Sigma V_{r}^{T}=\sum_{i=1} \sigma_{i} u_{i} v_{i}^{T}$
通过减去第一个主要向量的数据得到第二个主要向量 $z_{2}$ ：
$\begin{aligned} &\tilde{x}_{i}^{(1)}=\tilde{x}_{i}-u_{1}\left(u_{1}^{T} \tilde{x}_{i}\right), i=1, \cdots, m \\ &\tilde{X}^{(1)}=\left[\tilde{x}_{1}^{(1)}, \cdots, \tilde{x}_{m}^{(1)}\right]=\left(I_{n}-u_{1} u_{1}^{T}\right) \tilde{X} \end{aligned}$
结合上述两个式子可以得到:
$\begin{aligned} \tilde{X}^{(1)} &=\sum_{i=1}^{r} \sigma_{i} u_{i} v_{i}^{T}-\left(u_{1} u_{1}^{T}\right) \sum_{i=1}^{r} \sigma_{i} u_{i} v_{i}^{T} \\ &=\sum_{i=1}^{r} \sigma_{i} u_{i} v_{i}^{T}-\sum_{i=1}^{r} \sigma_{i} u_{1} u_{1}^{T} u_{i} v_{i}^{T} \\ &=\sum_{i=1}^{r} \sigma_{i} u_{i} v_{i}^{T}-\sigma_{1} u_{1} v_{1}^{T} \quad / / \mathrm{U} \text { is orthogonal } \\ &=\sum_{i=2}^{r} \sigma_{i} u_{i} v_{i}^{T} \end{aligned}$
已经去掉了第一个分量，那么第二个主要向量 $z_{2}$ 可以通过下式得到：
$\begin{gathered} \max _{z \in R^{n}} z^{T}\left(\tilde{X}^{(1)} \tilde{X}^{(1) T}\right) z, \text { s.t.: }\|z\|_{2}=1 \\ \tilde{X}^{(1)}=\sum_{i=2}^{r} \sigma_{i} u_{i} v_{i}^{T} \end{gathered}$
最后的结果 $z_{2}=u_{2}, u_{2}$ 是 $U_{r}$ 的第二列。
$z_{3}, \cdots z_{m}$ 可以通过相似的去除分量操作进行计算。

3.总结

给定数据 $x_{i} \in \mathbb{R}^{n}, i=1,2, \cdots m$ , 执行PCA的步骤为:

根据中心进行归一化：
$\tilde{X}=\left[\tilde{x}_{1}, \cdots, \tilde{x}_{m}\right], \tilde{x}_{i}=x_{i}-\bar{x}, i=1, \cdots, m \quad \bar{x}=\frac{1}{m} \sum_{i=1}^{m} x_{i}$
计算 SVD:
$H=\tilde{X} \tilde{X}^{T}=U_{r} \Sigma^{2} U_{r}^{T}$
主要向量便是 $U_{r}$ 的列（ $X$ 的特征向量= $H$ 的特征向量）

4.Kernel PCA

一般来说，主成分分析(Principal Components Analysis, PCA)适用于数据的线性降维。而核主成分分析(Kernel PCA, KPCA)可实现数据的非线性降维，用于处理线性不可分的数据集。

KPCA的大致思路是：对于输入空间(Input space)中的矩阵 $\mathbf{X}$ ，我们先用一个非线性映射把 $\mathbf{X}$ 中的所有样本映射到一个高维甚至是无穷维的空间(称为特征空间，Feature space)，(使其线性可分)，然后在这个高维空间进行PCA降维。

5.证明

输入数据为 $x_{i} \in \mathbb{R}^{n}, i=1,2, \cdots, N$ ，假设存在一个非线性变换 $\phi(\cdot)$ ，可以将数据的维度从 $\mathbb{R}^{n} \to \mathbb{R}^{n_1}$ ，其中 $n << n_1$ ，最终会得到升维后的数据 $\phi(X)=[\phi(x_1),\phi(x_2),...,\phi(x_N)]$

在将维度提升至 $n_1$ 后，再采取标准的线性PCA将维度降低到 $n_2$ 维，其中 $n<n_2<n_1$ :

Assume $\phi\left(x_{i}\right)$ is already zero-center
$\frac{1}{N} \sum_{i=1}^{N} \phi\left(x_{i}\right)=0$
Compute correlation matrix
$\tilde{H}=\frac{1}{N} \sum_{i=1}^{N} \phi\left(x_{i}\right) \phi^{T}\left(x_{i}\right)=\phi(X)\phi^T(X)$
Solve the eigenvectors/eigenvalues by $\tilde{H} \tilde{z}=\tilde{\lambda} \tilde{z}$

此时存在两个问题：

$\phi$ 将如何定义？
可以避免通过 $\phi$ 将数据映射到高维这个步骤吗？

我们注意到，特征向量可以表示为特征的线性组合：
$\tilde{z}=\sum_{j=1}^{N} \alpha_{j} \phi\left(x_{j}\right)= \phi(X) \alpha$
注意，此时的 $\alpha$ 变成了一个向量， $\alpha = [\alpha_1, \alpha_2,...,\alpha_N]^T$

证明:
$\tilde{H} \tilde{z}=\tilde{\lambda} \tilde{z}$

$\frac{1}{N}\sum\limits_{i = 1}^N \phi \left( {{x_i}} \right)\underbrace {{\phi ^T}\left( {{x_i}} \right)\tilde z}_{{\rm{scalar}}}{\rm{ }} = \tilde \lambda \tilde z$

将线性组合带入到 $\tilde{H} \tilde{z}=\tilde{\lambda} \tilde{z}$ 中：
$\begin{aligned} \frac{1}{N} \phi(X)\phi^T(X)\phi(X) \alpha&=\tilde{\lambda} \phi(X) \alpha \end{aligned}$
定义 kernel 函数为 $k\left(x_{i}, x_{j}\right)=\phi^{T}\left(x_{i}\right) \phi\left(x_{j}\right)$ ， $K=\phi^T(X)\phi(X) \in \mathbb{R}^{N \times N}$ , $k\left(x_{i}, x_{j}\right)$ ， $K$ 是一个对称矩阵：
$\frac{1}{N} \phi(X)K \alpha=\tilde{\lambda} \phi(X) \alpha$
两边同时乘以 $\phi^T\left(X\right)$ ：
$\frac{1}{N}\phi^T\left(X\right) \phi(X)K \alpha=\tilde{\lambda} \phi^T\left(X\right)\phi(X) \alpha$
上述公式还可以写成：
$K^{2} \alpha=N \tilde{\lambda} K \alpha$
两边去掉 $K$ ：
$\begin{aligned} &K \alpha=N \tilde{\lambda} \alpha \\ &K \alpha=\lambda \alpha \end{aligned}$
可以得到特征向量 $\alpha_{r}$ 和特征值 $\lambda_{r}, r=1, \cdots, l$
但是，必须保证 $\tilde{z}$ 是单位向量，值得注意的是，我们是在特征空间中解的线性PCA:
$\tilde{H} \tilde{z}=\tilde{\lambda} \tilde{z} \quad \tilde{z}=\sum_{j=1}^{N} \alpha_{j} \phi\left(x_{j}\right)=\phi(X) \alpha$
$\tilde{z}$ 归一化流程为：
$\begin{aligned} 1 &=\tilde{z}_{r}^{T} \tilde{z}_{r} \\ 1 &=\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{r i} \alpha_{r j} \phi^{T}\left(x_{i}\right) \phi\left(x_{j}\right) =\alpha_{r}^{T} \phi^{T}\left(X\right) \phi\left(X\right) \alpha_{r} \\ 1 &=\alpha_{r}^{T} K \alpha_{r} \end{aligned}$
注意到 $\alpha=\lambda \alpha$ , 有：
$\alpha_{r}^{T} \lambda_{r} \alpha_{r}=1, \forall r$
即, 将 $\alpha_{r}$ 归一化为 $\lambda_{r}$ ，得到归一化后的 $\tilde\alpha_{r}$ .
现在, 第 $r^{t h}$ 主要向量为：
$\tilde{z}_{r}=\sum_{j=1}^{N} \tilde\alpha_{r j} \phi\left(x_{j}\right)$
现在，我们已知数据点 $x$ 的映射 $\phi(x)$ 的主要向量，将 $\phi(x)$ 映射到 $\tilde{z}_{r}$ 的方向上去：
$\phi^{T}(x) \tilde{z}_{r}=\sum_{j=1}^{N} \alpha_{r j} \phi^{T}(x) \phi\left(x_{j}\right)=\sum_{j=1}^{N} \alpha_{r j} k\left(x, x_{j}\right)$
但是，还有一件事需要考虑，我们之前是假设 $\phi\left(x_{i}\right)$ 是相对于中心归一化的，所以还要通过kernel保证 $\phi\left(x_{i}\right)$ 的归一化。
将 $\phi\left(x_{i}\right)$ 相对于中心点归一化：
$\tilde{\phi}\left(x_{i}\right)=\phi\left(x_{i}\right)-\frac{1}{N} \sum_{j=1}^{N} \phi\left(x_{j}\right)$
为简化表达式，引入 $N$ 维向量 $\mathbf{1}_{N\times1}=[1, 1,...,1]^T$ ，则
$\tilde{\phi}\left(x_{i}\right)=\phi\left(x_{i}\right)-\frac{1}{N} \phi(X)\mathbf{1}_{N\times1}$
将矩阵 $\phi(\mathbf{X})$ 中所有向量中心化得到:
$\begin{gathered} \widetilde{\phi}(\mathbf{X})=\left[\phi\left(\mathbf{x}_{1}\right)-\frac{1}{N} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N} \times \mathbf{1}}, \phi\left(\mathbf{x}_{2}\right)-\frac{1}{N} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N} \times \mathbf{1}}, \ldots, \phi\left(\mathbf{x}_{\mathbf{N}}\right)-\frac{1}{N} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N} \times \mathbf{1}}\right] \\ =\left[\phi\left(\mathbf{x}_{\mathbf{1}}\right), \phi\left(\mathbf{x}_{\mathbf{2}}\right), \ldots, \phi\left(\mathbf{x}_{\mathbf{N}}\right)\right]-\frac{1}{N} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N} \times \mathbf{1}} \mathbf{1}_{\mathbf{N} \times \mathbf{1}}^{T} \\ =\phi(\mathbf{X})-\frac{1}{N} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N} \times \mathbf{1}} \mathbf{1}_{\mathbf{N} \times \mathbf{1}^{T}} \end{gathered}$
为方便表示，我们再次引入矩阵 $\mathbf{1}_{\mathbf{N}}=\frac{1}{N} \mathbf{1}_{\mathbf{N} \times \mathbb{L}} \mathbf{1}_{\mathrm{N} \times \mathbf{1}}{ }^{T}$ ，表示一个 $\times N$ 的矩阵，其每个元素都为 $\frac{1}{N}$ 。则 $\widetilde{\phi}(\mathbf{X})$ 可简记为:
$\widetilde{\phi}(\mathbf{X})=\phi(\mathbf{X})-\phi(\mathbf{X}) \mathbf{1}_{\mathbf{N}}$
如前文所说，我们并不需要显式地计算 $\tilde{\phi}(\mathbf{X})$ ，只需计算中心化后的核矩阵即可:
$\widetilde{\mathbf{K}}_{i j}=\widetilde{\phi}\left(\mathbf{x}_{\mathbf{i}}\right)^{T} \widetilde{\phi}\left(\mathbf{x}_{\mathbf{j}}\right)=\left[\phi\left(\mathbf{x}_{\mathbf{i}}\right)-\frac{1}{N} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N} \times \mathbf{1}}\right]^{T}\left[\phi\left(\mathbf{x}_{\mathbf{j}}\right)-\frac{1}{N} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N} \times \mathbf{1}}\right]$
- 或者，我们可以直接推导中心化整个核矩阵的表达式，更为紧凑:
  $\begin{gathered} \widetilde{\mathbf{K}}=\widetilde{\phi}(\mathbf{X})^{T} \widetilde{\phi}(\mathbf{X})=\left[\phi(\mathbf{X})-\phi(\mathbf{X}) \mathbf{1}_{\mathbf{N}}\right]^{T}\left[\phi(\mathbf{X})-\phi(\mathbf{X}) \mathbf{1}_{\mathbf{N}}\right] \\ =\phi(\mathbf{X})^{T} \phi(\mathbf{X})-\phi(\mathbf{X})^{T} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N}}-\mathbf{1}_{\mathbf{N}}^{T} \phi(\mathbf{X})^{T} \phi(\mathbf{X})+\mathbf{1}_{\mathbf{N}}^{T} \phi(\mathbf{X})^{T} \phi(\mathbf{X}) \mathbf{1}_{\mathbf{N}} \\ =\mathbf{K}-\mathbf{K} \cdot \mathbf{1}_{\mathbf{N}}-\mathbf{1}_{\mathbf{N}}^{T} \cdot \mathbf{K}+\mathbf{1}_{\mathbf{N}}^{T} \cdot \mathbf{K} \cdot \mathbf{1}_{\mathbf{N}} \end{gathered}$
由于 $1_{\mathrm{N}}{ }^{T}=1_{\mathrm{N}}$ 为对称矩阵，所以上式又可简化为
$\widetilde{\mathbf{K}}=\mathbf{K}-\mathbf{K} \cdot \mathbf{1}_{\mathbf{N}}-\mathbf{1}_{\mathbf{N}} \cdot \mathbf{K}+\mathbf{1}_{\mathbf{N}} \cdot \mathbf{K} \cdot \mathbf{1}_{\mathbf{N}}$

可选的kernel

Linear $k\left(x_{i}, x_{j}\right)=x_{i}^{T} x_{j}$
Polynomial $k\left(x_{i}, x_{j}\right)=\left(1+x_{i}^{T} x_{j}\right)^{p}$
Gaussian $k\left(x_{i}, x_{j}\right)=e^{-\beta\left\|x_{i}-x_{j}\right\|_{2}}$
Laplacian $k\left(x_{i}, x_{j}\right)=e^{-\beta\left\|x_{i}-x_{j}\right\|_{1}}$
Sigmoid

6.总结

选择一个核 $k\left(x_{i}, x_{j}\right)$ , 计算 Gram matrix $j)=k\left(x_{i}, x_{j}\right)$
对 $K$ 进行归一化：
$\widetilde{\mathbf{K}}=\mathbf{K}-\mathbf{K} \cdot \mathbf{1}_{\mathbf{N}}-\mathbf{1}_{\mathbf{N}} \cdot \mathbf{K}+\mathbf{1}_{\mathbf{N}} \cdot \mathbf{K} \cdot \mathbf{1}_{\mathbf{N}}$
解出 $\widetilde{K}$ 的特征值和特征向量：
$\widetilde{K} \alpha_{r}=\lambda_{r} \alpha_{r}$
将 $\alpha_{r}$ 归一化为 $\alpha_{r}^{T} \alpha_{r}=\frac{1}{\lambda_{r}}$
对于任意的数据点 $\in \mathbb{R}^{n}$ ，计算其到第 $r^{t h}$ 个主要向量方向上的投影 $y_{r} \in \mathbb{R}$ ：
$y_{r}=\phi^{T}(x) \tilde{z}_{r}=\sum_{j=1}^{N} \alpha_{r j} k\left(x, x_{j}\right)$