文章简介本文是顾险峰教授最优传输理论系列讲座的第一讲深度学习的几何观点的一些相关内容的整理
预备知识线性代数,微分几何,概率统计,偏微分方程
视频网址https://www.bilibili.com/video/BV1qQ4y1q7V8/

深度学习的基本问题

深度学习方法在很多工程和医疗领取都取得巨大成功,但是深度学习的理论基础依然薄弱,对于深度学习机制的内在理解仍然处于探索阶段,其基本问题可以接纳为如下三个:

  • 深度学习(机器学习)究竟在学习什么?
  • 深度学习系统如何进行学习?它们究竟是记住了学习样本,还是真正学会了内在知识?
  • 深度学习系统的学习效果如何?是学会了人类教给它们的所有知识,还是要迫不得已遗忘一些知识?

最优传输理论有助于理解和解答这些基本问题,并给出更加严密、准确、高效、,透明的设计方案,从而使得深度学习的“黑箱”变得透明。

流形分布定则

数据集分布在某个低维流形附近,这个流形称为数据流形Σ\SigmaΣ。数据流形Σ\SigmaΣ嵌入在高维的背景空间Rn\mathbb{R}^nRn中,数据集可以被抽象成一个数据流形Σ\SigmaΣ上的概率分布μ\muμ。如下图所示,手写体阿拉伯数字可以看成嵌入在图像空间中二维曲面上的概率分布。

定则1(流形分布定则):编码映射φi:Ui→Z\varphi_i:U_i \rightarrow \mathcal{Z}φi:UiZ将数据流形上的一个邻域UiU_iUi映射到隐空间Z\mathcal{Z}Z上。一个样本p∈Σp \in \SigmapΣ被映射到隐空间Z\mathcal{Z}Z中,其像φi(p)\varphi_i(p)φi(p)称为ppp的特征向量或隐编码。编码映射将数据流形上的概率分布uuu映射到隐空间上的数据分布(φi)#μ(\varphi_i)_{\#}\mu(φi)#μ,编码映射不唯一,不同的编码映射诱导不同的隐空间分布。假设φj:Uj→Z\varphi_j:U_j \rightarrow \mathcal{Z}φj:UjZ是另一个编码映射,则(φj)#μ(\varphi_j)_{\#}\mu(φj)#μ是不同的隐空间分布。不同的隐编码之间存在变换,φij:φi(Ui∩Uj)→φj(Ui∩Uj),φij=φj∘φi.\varphi_{ij}:\varphi_{i}(U_i \cap U_j)\rightarrow \varphi_j(U_i \cap U_j),\quad \varphi_{ij}=\varphi_j \circ \varphi_i.φij:φi(UiUj)φj(UiUj),φij=φjφi.

 流形分布定则的示意图如上所示,这定则类似物理中的定律,无法用数学公理通过逻辑进行严格的证明,但在实际应用中无时无刻不起着至关重要的作用。

定理1:自然数据集可以被视为低维数据流形上的概率分布,数据流形嵌入在高维的背景空间之中。不同子类对应的分布之间的距离足够远,使得它们可以被区分。

 因此,可以看到深度学习的目的是学习流形上的概率分布,深度学习的中心任务包括:

  • 学习数据流形上的流形结构
  • 学习数据的概率测度分布

深度神经网络非常适合表达非线性映射(可以表达同胚变换群):

  • 第一个任务学习流形结构,这一结构由编码映射和解码映射所表达。
  • 第二个任务学习概率分布,有多种方法表达,例如Gauss混合逼近,Gibbs分布,归一化流等方法(基于Cartan公式)。最优传输映射更是一种严格,高效的方法。

流形嵌入定理

如果流形的嵌入具有纽结结构,通过嵌入到高维的欧氏空间,可以解除纽结结构,这意味着提高嵌入空间的维数,可以为数据流形解套。

定理2:给定一个mmm维流形MMM,则存在Rn\mathbb{R}^nRn中的一个嵌入,n≥2m+2n\ge 2m+2n2m+2,使得嵌入没有链结构。

如果初始流形嵌入的空间维数过高,通过改变嵌入空间而实现逐步降维,直至隐空间。Whitney流形嵌入定理给出一个一般流形嵌入空间的下界。

定理3(Whitney):任意nnn维光滑实流形,如果是Hausdorff且第二可数的,都可以光滑嵌入在2n+12n+12n+1维的欧氏空间R2n+1\mathbb{R}^{2n+1}R2n+1中。

Whitney定理给出了流形嵌入的普适方法:首先构造流形的一个有限开覆盖{Ui}\{U_i\}{Ui},得到单位分解{ρi}\{\rho_i\}{ρi};构造局部嵌入φi\varphi_iφi将每个开集UiU_iUi嵌入到线性子空间Rn\mathbb{R}^nRn中,用单位分解将局部嵌入合成全局嵌入;随后进行随机投影,降低嵌入空间的维数。

万有逼近

在深度学习中,用深度神经网络来逼近任意的连续函数和连续映射。与传统方法不同,深度学系是通过复合简单函数来逼近复杂函数的

定理4(Kolmogorov-Arnold):假设fff是一个多元连续函数,那么fff可以被写成单元连续函数的有限复合f(x1,x2,⋯ ,xn)=∑q=02nΦq(∑p=1nφp,q(xp))f(x_1,x_2,\cdots,x_n)=\sum\limits_{q=0}^{2n}\Phi_q(\sum\limits_{p=1}^n \varphi_{p,q}(x_p))f(x1,x2,,xn)=q=02nΦq(p=1nφp,q(xp))这里φ,Φ\varphi,\Phiφ,Φ分别为内,外函数。

有多种方式用深度神经网络来构造内,外函数,例如用Sigmoid\mathrm{Sigmoid}SigmoidReLU\mathrm{ReLU}ReLU激活函数来表示内函数。

微分同胚群

如何用深度神经网络来表达微分同胚群是深度学习的核心问题之一。一种思路是构造一系列嵌套微分同胚子群,F0⊃F1⊃F2⊃⋯⊃Fn\mathcal{F_0}\supset\mathcal{F_1}\supset\mathcal{F_2}\supset\cdots \supset \mathcal{F_n}F0F1F2Fn对于任意映射f∈Fk−1f\in \mathcal{F_{k-1}}fFk1,可以找到有限个属于子群Fk\mathcal{F}_kFk的映射g1,g2⋯,gr⊂Fkg_1,g_2\cdots,g_r \subset \mathcal{F}_kg1,g2grFk,满足f=g1∘g2∘g3∘⋯∘grf=g_1 \circ g_2 \circ g_3 \circ \cdots \circ g_rf=g1g2g3gr这样可以用子群Fk\mathcal{F}_kFk的元素来表示Fk−1F_{k-1}Fk1的元素。同时,可以把子群Fn\mathcal{F}_nFn设计得足够简单,令其可以用深度学习神经网络来表示,那么就可以得到表示初始得整个微分同胚群F0\mathcal{F}_0F0

如上图所示为一个自动编码器,在数据流形Σ⊂Rd\Sigma \subset \mathbb{R}^dΣRd上稠密采样{x1,x2,⋯ ,xk}\{x_1,x_2,\cdots,x_k\}{x1,x2,,xk},优化损失函数,min⁡θ,ξL(θ,ξ)=min⁡θ,ξ∑i=1k∥xi−ψξ∘φθ(xi)∥2\min_{\theta,\xi}\mathcal{L}(\theta,\xi)=\min\limits_{\theta,\xi}\sum\limits_{i=1}^k\|x_i-\psi_\xi \circ \varphi_{\theta}(x_i)\|^2θ,ξminL(θ,ξ)=θ,ξmini=1kxiψξφθ(xi)2损失函数接近0,则ψ∘φθ\psi \circ \varphi_\thetaψφθ限制在Σ\SigmaΣ上为恒同映射,φθ\varphi_\thetaφθψξ\psi_{\xi}ψξ为同胚。

概率测度学习

给定Riemann\mathrm{Riemann}Riemann流形(X,g)(X,{\bf{g}})(X,g),其上所有的概率测度空间记为P(X)\mathcal{P}(X)P(X),即Wasserstein\mathrm{Wasserstein}Wasserstein空间。深度学习系统本质上在Wasserstein\mathrm{Wasserstein}Wasserstein空间中进行优化。经典的最大熵原理,最大似然法、最大后验概率等方法都是通过观察,得到一些函数的期望值,然后将这些期望作为限制来优化特定的能量。因此,深度学习需要在空间P(X)\mathcal{P}(X)P(X)上定理Riemann\mathrm{Riemann}Riemann度量和斜变微分,最有传输理论为此提供了理论基础。给定传输代价c:X×X→Rc:X \times X \rightarrow \mathbb{R}c:X×XR后,从而得到协变微分的理论框架,使得变分在P(X)\mathcal{P}(X)P(X)Riemann\mathrm{Riemann}Riemann度量,即Wasserstein\mathrm{Wasserstein}Wasserstein度量,从而得到协变微分的理论框架,使得变分在P(X)\mathcal{P}(X)P(X)上得以施行。
给定紧度量空间Ω\OmegaΩΩ∗\Omega^{*}Ω,具有测度dμ(x)=f(x)d\mu(x)=f(x)dμ(x)=f(x)dν(y)=g(y)dyd\nu(y)=g(y)dydν(y)=g(y)dyμ(Ω)=ν(Ω∗)\mu(\Omega)=\nu(\Omega^{*})μ(Ω)=ν(Ω),给定传输映射T:Ω→Ω∗T:\Omega \rightarrow \Omega^{*}T:ΩΩ,满足∫T−1(E)dμ=∫Edν,BorelE⊂Ω∗\int_{T^{-1}(E)}d\mu = \int_E d\nu,\quad \mathrm{Borel} \quad E \subset \Omega^{*}T1(E)dμ=Edν,BorelEΩTTT是保测度的,记为T#μ=νT_{\#}\mu=\nuT#μ=ν
给定传输代价c:Ω×Ω∗→Rc:\Omega \times \Omega^{*} \rightarrow \mathbb{R}c:Ω×ΩRMonge\mathrm{Monge}Monge问题寻找最优传输映射,min⁡T#μ=ν∫Ωc(x,T(x))dμ(x)\min\limits_{T_{\#}\mu=\nu}\int_{\Omega}c(x,T(x))d\mu(x)T#μ=νminΩc(x,T(x))dμ(x)代价函数为欧氏距离平方,则最优传输映射TTTBrenier\mathrm{Brenier}Brenier势能函数的梯度映射T=∇uT=\nabla uT=uuuu满足Monge−Ampere\mathrm{Monge-Ampere}MongeAmpere方程:det⁡(∂2u∂xi∂xj)=f(x)g∘∇u(x)\det(\frac{\partial^2 u}{\partial x_i \partial x_j})=\frac{f(x)}{g \circ \nabla u(x)}det(xixj2u)=gu(x)f(x)连接μ\muμν\nuν的测地线由McGann\mathrm{McGann}McGann平移给出,γ(t)=(1−t)Id+t(∇u)#u\gamma(t)=(1-t)\mathrm{Id}+t(\nabla u)_{\#}uγ(t)=(1t)Id+t(u)#uWassertein\mathrm{Wassertein}Wassertein空间的一切向量是Ω\OmegaΩ上的一个梯度场dφd\varphidφWassertein_Riemann\mathrm{Wassertein\_Riemann}Wassertein_Riemann度量给出两个切向量的内积,⟨dφ1,dφ2⟩=∫X⟨dφ1,dφ2⟩gdμ(x)\langle d\varphi_1,d\varphi_2\rangle=\int_X \langle d \varphi_1,d\varphi_2\rangle_{{\bf{g}}}d\mu(x)dφ1,dφ2=Xdφ1,dφ2gdμ(x)

对抗生成网络

生成器GGG计算从隐空间到数据流形的传输映射,gθ:(Z,ζ)→(Σ,μθ)g_{\theta}:(\mathcal{Z},\zeta)\rightarrow (\Sigma,\mu_{\theta})gθ:(Z,ζ)(Σ,μθ),判别器计算从生成分布到真实分布的最优传输映射dξ:(Σ,μθ)→(Σ,ν)d_{\xi}:(\Sigma,\mu_{\theta})\rightarrow (\Sigma,\nu)dξ:(Σ,μθ)(Σ,ν)。复合映射dξ∘gθ:(Z,ζ)→(Σ,ν)d_{\xi}\circ g_{\theta}:(\mathcal{Z},\zeta)\rightarrow(\Sigma,\nu)dξgθ:(Z,ζ)(Σ,ν)给出了从隐空间的白噪声到数据流形上的真实分布的传输映射。生成器和判别器应该合作共享中间计算成果,而非竞争对抗,用dξ∘gθd_{\xi}\circ g_{\theta}dξgθ来更新gθg_{\theta}gθ,从而大幅度减少迭代步数。

模式坍塌和模式混淆

如果目标概率分布的支撑集合有多个连通分支,每个连通分支称为一个模式,那么训练过程往往收敛到其中几个分支,而遗忘其余分支,这种现象称为模式坍塌。如果加上正则限制,强制生成模型覆盖所有的连通分支,这时分支之间的间隙也被覆盖,生成的样本是多个模式的混合,称为模式混淆。
训练过程或者无法收敛,或者收敛到某个连续的传输映射,其目标区域限制在某些模式,而遗漏其他模式,这导致了模式坍塌;或者收敛到某个连续传输映射,其像覆盖所有模式,同时也覆盖了模式之间的空隙,这导致模式混淆。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐