通用近似原理及证明-为什么神经网络可以拟合任意函数
通用近似原理及证明
通用近似定理(Universal Approximation Theorem)表明:
一个至少有一个隐藏层的神经网络【输入层-隐藏层-输出层】,同时要求激活函数有挤压性质,如 Sigmoid 函数、ReLU 函数,且输出层是线性的。这样的神经网络在隐藏层神经元足够多的情况下,能以任意的精度去近似任何连续函数。
证明:
Step1. 问题定义:设F是一个定义在n维单位立方体[0,1]n[0,1]^n[0,1]n上的连续函数族,C([0,1]n)C([0,1]^n)C([0,1]n)表示上的连续函数空间,对于f∈Ff \in Ff∈F,我们希望用一个神经网络来逼近这个函数。
Step2. 构造单层前馈神经网络:输入x=(x1,x2,⋯ ,xn)∈[0,1]nx = (x_1, x_2, \cdots, x_n) \in [0, 1]^nx=(x1,x2,⋯,xn)∈[0,1]n,输出为y,隐藏层有m个神经元,激活函数为σ\sigmaσ,输出层为线性函数y,wiw_iwi是输出权重,vi,jv_{i,j}vi,j是输入权重,bib_ibi是偏置,则输出函数可表示为,其实wiw_iwi是我们的要学习的参数
y=∑i=1mwiσ(∑j=1nvijxj+bi) y = \sum_{i = 1}^{m} w_{i} \sigma \left( \sum_{j = 1}^{n} v_{ij} x_{j}+b_{i} \right) y=i=1∑mwiσ(j=1∑nvijxj+bi)
Step3. 构造损失函数:
E=∫[0,1]n(y−f(x))2dx E = \int_{[0,1]^n} (y - f(x))^2 dx E=∫[0,1]n(y−f(x))2dx
Step4. Weierstrass 逼近定理表明对于任意给定的在闭区间上连续的函数,可以用 多项式函数来逼近。由于激活函数σ\sigmaσ是连续的,∀ϵ>0,∃p(x) , s.t. ∣σ(x)−p(x)∣<ϵ,∀x∈R\forall \epsilon > 0, \exists p(x) \text{ }, \text{ s.t. }|\sigma(x)-p(x)|<\epsilon, \forall x\in\mathbb{R}∀ϵ>0,∃p(x) , s.t. ∣σ(x)−p(x)∣<ϵ,∀x∈R
进而化简误差函数和目标函数:
y=∑i=1mwip(∑j=1nvijxj+bi)E=∫[0,1]n(∑i=1mwip(∑j=1nvijxj+bi)−f(x))2dx y = \sum_{i = 1}^{m} w_{i}p(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}) \\ E = \int_{[0,1]^n} \left( \sum_{i = 1}^{m} w_{i}p \left( \sum_{j = 1}^{n} v_{ij}x_{j}+b_{i} \right) - f(x) \right)^2 dx y=i=1∑mwip(j=1∑nvijxj+bi)E=∫[0,1]n(i=1∑mwip(j=1∑nvijxj+bi)−f(x))2dx
Step5. 由于fff是连续函数,ppp是多项式函数,所以函数∑i=1mwip(∑j=1nvijxj+bi)−f(x)\sum_{i = 1}^{m} w_{i}p\left(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}\right)-f(x)∑i=1mwip(∑j=1nvijxj+bi)−f(x)是连续函数。根据连续函数在闭区间上的性质(Weierstrass逼近定理),对于任意的ϵ>0\epsilon > 0ϵ>0,存在一个正数MMM,使得对于所有的x∈[0,1]nx\in [0, 1]^{n}x∈[0,1]n
∣∑i=1mwip(∑j=1nvijxj+bi)−f(x)∣<ϵ2 \left|\sum_{i = 1}^{m} w_{i}p\left(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}\right)-f(x)\right| < \frac{\epsilon}{2}
i=1∑mwip(j=1∑nvijxj+bi)−f(x)
<2ϵ
绝对值小于,则去绝对值号可得到∫[0,1]n(f(x)−f(x′)) dx<ϵ2\int_{[0,1]^n} (f(x) - f(x')) \, dx < \frac{\epsilon}{2}∫[0,1]n(f(x)−f(x′))dx<2ϵ 得证。其实本质就是根据微分法将定义域区间划分为若干的小立方体,那么在每个小立方体上都可以用一个多项式函数pip_ipi来逼近f(x)f(x)f(x)在该小立方体的上取值,将这些多项式函数组合即可得到y。
Step6. 最终可以使得对于所有的x∈[0,1]nx \in [0, 1]^nx∈[0,1]n,有∣y−f(x)∣<ϵ\vert y - f(x) \vert < \epsilon∣y−f(x)∣<ϵ,其中ϵ\epsilonϵ是一个任意小的正数,表示逼近的精度。得证神经网络可以以任意精度逼近任意非线性函数。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)