深度学习的几何观点

深度学习的基本问题深度学习方法在很多工程和医疗领取都取得巨大成功，但是深度学习的理论基础依然薄弱，对于深度学习机制的内在理解仍然处于探索阶段，其基本问题可以接纳为如下三个：深度学习（机器学习）究竟在学习什么？深度学习系统如何进行学习？它们究竟是记住了学习样本，还是真正学会了内在知识？深度学习系统的学习效果如何？是学会了人类教给它们的所有知识，还是要迫不得已遗忘一些知识？最优传输理论有助于理解和解

鬼道2022

1165人浏览 · 2021-10-25 13:07:37

鬼道2022 · 2021-10-25 13:07:37 发布

文章简介：本文是顾险峰教授最优传输理论系列讲座的第一讲深度学习的几何观点的一些相关内容的整理
预备知识：线性代数，微分几何，概率统计，偏微分方程
视频网址：https://www.bilibili.com/video/BV1qQ4y1q7V8/

深度学习的基本问题

深度学习方法在很多工程和医疗领取都取得巨大成功，但是深度学习的理论基础依然薄弱，对于深度学习机制的内在理解仍然处于探索阶段，其基本问题可以接纳为如下三个：

深度学习（机器学习）究竟在学习什么？
深度学习系统如何进行学习？它们究竟是记住了学习样本，还是真正学会了内在知识？
深度学习系统的学习效果如何？是学会了人类教给它们的所有知识，还是要迫不得已遗忘一些知识？

最优传输理论有助于理解和解答这些基本问题，并给出更加严密、准确、高效、，透明的设计方案，从而使得深度学习的“黑箱”变得透明。

流形分布定则

数据集分布在某个低维流形附近，这个流形称为数据流形 $Σ\Sigma$ 。数据流形 $Σ\Sigma$ 嵌入在高维的背景空间 $Rn\mathbb{R}^n$ 中，数据集可以被抽象成一个数据流形 $Σ\Sigma$ 上的概率分布 $μ\mu$ 。如下图所示，手写体阿拉伯数字可以看成嵌入在图像空间中二维曲面上的概率分布。

定则1（流形分布定则）：编码映射 $φi:Ui→Z\varphi_i:U_i \rightarrow \mathcal{Z}$ 将数据流形上的一个邻域 $U_i$ 映射到隐空间 $Z\mathcal{Z}$ 上。一个样本 $\in \Sigma$ 被映射到隐空间 $Z\mathcal{Z}$ 中，其像 $φi(p)\varphi_i(p)$ 称为 $p$ 的特征向量或隐编码。编码映射将数据流形上的概率分布 $u$ 映射到隐空间上的数据分布 $(φi)#μ(\varphi_i)_{\#}\mu$ ，编码映射不唯一，不同的编码映射诱导不同的隐空间分布。假设 $φj:Uj→Z\varphi_j:U_j \rightarrow \mathcal{Z}$ 是另一个编码映射，则 $(φj)#μ(\varphi_j)_{\#}\mu$ 是不同的隐空间分布。不同的隐编码之间存在变换， $φij:φi(Ui∩Uj)→φj(Ui∩Uj),φij=φj∘φi.\varphi_{ij}:\varphi_{i}(U_i \cap U_j)\rightarrow \varphi_j(U_i \cap U_j),\quad \varphi_{ij}=\varphi_j \circ \varphi_i.$

流形分布定则的示意图如上所示，这定则类似物理中的定律，无法用数学公理通过逻辑进行严格的证明，但在实际应用中无时无刻不起着至关重要的作用。

定理1：自然数据集可以被视为低维数据流形上的概率分布，数据流形嵌入在高维的背景空间之中。不同子类对应的分布之间的距离足够远，使得它们可以被区分。

因此，可以看到深度学习的目的是学习流形上的概率分布，深度学习的中心任务包括：

学习数据流形上的流形结构
学习数据的概率测度分布

深度神经网络非常适合表达非线性映射（可以表达同胚变换群）：

第一个任务学习流形结构，这一结构由编码映射和解码映射所表达。
第二个任务学习概率分布，有多种方法表达，例如Gauss混合逼近，Gibbs分布，归一化流等方法（基于Cartan公式）。最优传输映射更是一种严格，高效的方法。

流形嵌入定理

如果流形的嵌入具有纽结结构，通过嵌入到高维的欧氏空间，可以解除纽结结构，这意味着提高嵌入空间的维数，可以为数据流形解套。

定理2：给定一个 $m$ 维流形 $M$ ，则存在 $Rn\mathbb{R}^n$ 中的一个嵌入， $n≥2m+2n\ge 2m+2$ ，使得嵌入没有链结构。

如果初始流形嵌入的空间维数过高，通过改变嵌入空间而实现逐步降维，直至隐空间。Whitney流形嵌入定理给出一个一般流形嵌入空间的下界。

定理3（Whitney）：任意 $n$ 维光滑实流形，如果是Hausdorff且第二可数的，都可以光滑嵌入在 $2 n + 1$ 维的欧氏空间 $R2n+1\mathbb{R}^{2n+1}$ 中。

Whitney定理给出了流形嵌入的普适方法：首先构造流形的一个有限开覆盖 ${U_i\}$ ，得到单位分解 ${ρi}\{\rho_i\}$ ；构造局部嵌入 $φi\varphi_i$ 将每个开集 $U_i$ 嵌入到线性子空间 $Rn\mathbb{R}^n$ 中，用单位分解将局部嵌入合成全局嵌入；随后进行随机投影，降低嵌入空间的维数。

万有逼近

在深度学习中，用深度神经网络来逼近任意的连续函数和连续映射。与传统方法不同，深度学系是通过复合简单函数来逼近复杂函数的

定理4（Kolmogorov-Arnold）：假设 $f$ 是一个多元连续函数，那么 $f$ 可以被写成单元连续函数的有限复合 $,xn)=∑q=02nΦq(∑p=1nφp,q(xp))f(x_1,x_2,\cdots,x_n)=\sum\limits_{q=0}^{2n}\Phi_q(\sum\limits_{p=1}^n \varphi_{p,q}(x_p))$ 这里 $φ,Φ\varphi,\Phi$ 分别为内，外函数。

有多种方式用深度神经网络来构造内，外函数，例如用 $Sigmoid\mathrm{Sigmoid}$ 、 $ReLU\mathrm{ReLU}$ 激活函数来表示内函数。

微分同胚群

如何用深度神经网络来表达微分同胚群是深度学习的核心问题之一。一种思路是构造一系列嵌套微分同胚子群， $F0⊃F1⊃F2⊃⋯⊃Fn\mathcal{F_0}\supset\mathcal{F_1}\supset\mathcal{F_2}\supset\cdots \supset \mathcal{F_n}$ 对于任意映射 $f∈Fk−1f\in \mathcal{F_{k-1}}$ ，可以找到有限个属于子群 $Fk\mathcal{F}_k$ 的映射 $g1,g2⋯，gr⊂Fkg_1,g_2\cdots，g_r \subset \mathcal{F}_k$ ，满足 $f=g1∘g2∘g3∘⋯∘grf=g_1 \circ g_2 \circ g_3 \circ \cdots \circ g_r$ 这样可以用子群 $Fk\mathcal{F}_k$ 的元素来表示 $F_{k-1}$ 的元素。同时，可以把子群 $Fn\mathcal{F}_n$ 设计得足够简单，令其可以用深度学习神经网络来表示，那么就可以得到表示初始得整个微分同胚群 $F0\mathcal{F}_0$ 。

如上图所示为一个自动编码器，在数据流形 $Σ⊂Rd\Sigma \subset \mathbb{R}^d$ 上稠密采样 $,xk}\{x_1,x_2,\cdots,x_k\}$ ，优化损失函数， $min⁡θ,ξL(θ,ξ)=min⁡θ,ξ∑i=1k∥xi−ψξ∘φθ(xi)∥2\min_{\theta,\xi}\mathcal{L}(\theta,\xi)=\min\limits_{\theta,\xi}\sum\limits_{i=1}^k\|x_i-\psi_\xi \circ \varphi_{\theta}(x_i)\|^2$ 损失函数接近0，则 $ψ∘φθ\psi \circ \varphi_\theta$ 限制在 $Σ\Sigma$ 上为恒同映射， $φθ\varphi_\theta$ 、 $ψξ\psi_{\xi}$ 为同胚。

概率测度学习

给定 $Riemann\mathrm{Riemann}$ 流形 $(X,g)(X,{\bf{g}})$ ，其上所有的概率测度空间记为 $P(X)\mathcal{P}(X)$ ，即 $Wasserstein\mathrm{Wasserstein}$ 空间。深度学习系统本质上在 $Wasserstein\mathrm{Wasserstein}$ 空间中进行优化。经典的最大熵原理，最大似然法、最大后验概率等方法都是通过观察，得到一些函数的期望值，然后将这些期望作为限制来优化特定的能量。因此，深度学习需要在空间 $P(X)\mathcal{P}(X)$ 上定理 $Riemann\mathrm{Riemann}$ 度量和斜变微分，最有传输理论为此提供了理论基础。给定传输代价 $\times X \rightarrow \mathbb{R}$ 后，从而得到协变微分的理论框架，使得变分在 $P(X)\mathcal{P}(X)$ 的 $Riemann\mathrm{Riemann}$ 度量，即 $Wasserstein\mathrm{Wasserstein}$ 度量，从而得到协变微分的理论框架，使得变分在 $P(X)\mathcal{P}(X)$ 上得以施行。
给定紧度量空间 $Ω\Omega$ 和 $Ω∗\Omega^{*}$ ，具有测度 $dμ(x)=f(x)d\mu(x)=f(x)$ 和 $dν(y)=g(y)dyd\nu(y)=g(y)dy$ ， $μ(Ω)=ν(Ω∗)\mu(\Omega)=\nu(\Omega^{*})$ ，给定传输映射 $T:Ω→Ω∗T:\Omega \rightarrow \Omega^{*}$ ，满足 $∫T−1(E)dμ=∫Edν,BorelE⊂Ω∗\int_{T^{-1}(E)}d\mu = \int_E d\nu,\quad \mathrm{Borel} \quad E \subset \Omega^{*}$ 则 $T$ 是保测度的，记为 $T#μ=νT_{\#}\mu=\nu$ 。
给定传输代价 $c:Ω×Ω∗→Rc:\Omega \times \Omega^{*} \rightarrow \mathbb{R}$ ， $Monge\mathrm{Monge}$ 问题寻找最优传输映射， $min⁡T#μ=ν∫Ωc(x,T(x))dμ(x)\min\limits_{T_{\#}\mu=\nu}\int_{\Omega}c(x,T(x))d\mu(x)$ 代价函数为欧氏距离平方，则最优传输映射 $T$ 是 $Brenier\mathrm{Brenier}$ 势能函数的梯度映射 $T=∇uT=\nabla u$ ， $u$ 满足 $Monge−Ampere\mathrm{Monge-Ampere}$ 方程： $det⁡(∂2u∂xi∂xj)=f(x)g∘∇u(x)\det(\frac{\partial^2 u}{\partial x_i \partial x_j})=\frac{f(x)}{g \circ \nabla u(x)}$ 连接 $μ\mu$ 和 $ν\nu$ 的测地线由 $McGann\mathrm{McGann}$ 平移给出， $γ(t)=(1−t)Id+t(∇u)#u\gamma(t)=(1-t)\mathrm{Id}+t(\nabla u)_{\#}u$ $Wassertein\mathrm{Wassertein}$ 空间的一切向量是 $Ω\Omega$ 上的一个梯度场 $dφd\varphi$ 。 $Wassertein_Riemann\mathrm{Wassertein\_Riemann}$ 度量给出两个切向量的内积， $⟨dφ1,dφ2⟩=∫X⟨dφ1,dφ2⟩gdμ(x)\langle d\varphi_1,d\varphi_2\rangle=\int_X \langle d \varphi_1,d\varphi_2\rangle_{{\bf{g}}}d\mu(x)$

对抗生成网络

生成器 $G$ 计算从隐空间到数据流形的传输映射， $gθ:(Z,ζ)→(Σ,μθ)g_{\theta}:(\mathcal{Z},\zeta)\rightarrow (\Sigma,\mu_{\theta})$ ，判别器计算从生成分布到真实分布的最优传输映射 $dξ:(Σ,μθ)→(Σ,ν)d_{\xi}:(\Sigma,\mu_{\theta})\rightarrow (\Sigma,\nu)$ 。复合映射 $dξ∘gθ:(Z,ζ)→(Σ,ν)d_{\xi}\circ g_{\theta}:(\mathcal{Z},\zeta)\rightarrow(\Sigma,\nu)$ 给出了从隐空间的白噪声到数据流形上的真实分布的传输映射。生成器和判别器应该合作共享中间计算成果，而非竞争对抗，用 $dξ∘gθd_{\xi}\circ g_{\theta}$ 来更新 $gθg_{\theta}$ ，从而大幅度减少迭代步数。

模式坍塌和模式混淆

如果目标概率分布的支撑集合有多个连通分支，每个连通分支称为一个模式，那么训练过程往往收敛到其中几个分支，而遗忘其余分支，这种现象称为模式坍塌。如果加上正则限制，强制生成模型覆盖所有的连通分支，这时分支之间的间隙也被覆盖，生成的样本是多个模式的混合，称为模式混淆。
训练过程或者无法收敛，或者收敛到某个连续的传输映射，其目标区域限制在某些模式，而遗漏其他模式，这导致了模式坍塌；或者收敛到某个连续传输映射，其像覆盖所有模式，同时也覆盖了模式之间的空隙，这导致模式混淆。