【机器学习课程】高斯分布
1 概率密度函数
对于一个连续的概率密度方程,p(x)p(x)p(x),满足下列特性:
- 处理a和b两点之间的x满足:
P(a<x<b)=∫abp(x)dxP(a<x<b) = \int_a^b p(x)dxP(a<x<b)=∫abp(x)dx - 对于所有实数x,其值是非负的
- 概率函数的积分为1,即有:
∫∞∞p(x)dx=1\int_\infty^\infty p(x)dx=1∫∞∞p(x)dx=1
扩展到向量x\bold xx,可以有非负的p(x)p(\bold x)p(x)具有以下性质: - x\bold xx在一个区域Ω\OmegaΩ里的概率为:P=∫Ωp(x)dxP=\int_\Omega p(\bold x)d{\bold x}P=∫Ωp(x)dx
- 概率方程的积分值为1,即有:∫p(x)dx=1\int p(\bold x)d\bold x=1∫p(x)dx=1
2 高斯分布
高斯函数是使用最普遍的概率函数,高斯分布也称为正态分布,其函数为:
p(x)=N(x∣μ,σ2)=12πσexp(−(x−μ)22σ2)p(x)=N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)p(x)=N(x∣μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
其中,μ\muμ是平均数,σ2\sigma^2σ2是方差,σ\sigmaσ是标准偏差

对于D维向量x\bold xx的高斯函数为:
N(x∣μ,Σ)=1(2π)D/2∣Σ∣D/2exp(−12(x−μ)TΣ−1(x−μ))N(\bold x|\mu,\Sigma)=\frac{1}{(2\pi)^{D/2}|\Sigma|^{D/2}}\exp\left(-\frac{1}{2}(\bold x-\mu)^T\Sigma^{-1}(\bold x-\mu)\right)N(x∣μ,Σ)=(2π)D/2∣Σ∣D/21exp(−21(x−μ)TΣ−1(x−μ))
其中μ\muμ也称为平均向量,Σ\SigmaΣ称为协方差矩阵(正定),∣Σ∣|\Sigma|∣Σ∣也称为Σ\SigmaΣ的行列式
3 高斯函数的最大似然估计
给定数据集 X=x1,⋯ ,xN\bold X={\bold x_1,\cdots,\bold x_N}X=x1,⋯,xN,其中xn\bold x_nxn假设为独立地从一个多变量的高斯分布中取出的,我们可以采用最大似然估计来确定密度参数
对数似然函数为:
logp(X∣μ,Σ)=−ND2log(2π)−N2log∣Σ∣−12∑n=1N(xn−u)TΣ−1(xn−μ)\log p(\bold X|\mu,\Sigma)=-\frac{ND}{2}\log(2\pi)-\frac{N}{2}\log|\Sigma|-\frac{1}{2}\sum_{n=1}^N(\bold x_n-u)^T\Sigma^{-1}(\bold x_n-\mu)logp(X∣μ,Σ)=−2NDlog(2π)−2Nlog∣Σ∣−21n=1∑N(xn−u)TΣ−1(xn−μ)
令上述式子对于均值μ\muμ的微分等于0,可以得到:
∑n=1NΣ−1(xn−u)=0\sum_{n=1}^N\Sigma^{-1}(\bold x_n-u)=0n=1∑NΣ−1(xn−u)=0
因此,μML=1N∑n=1N(xn−μML)(xn−μML)T\mu_{ML}=\frac{1}{N}\sum_{n=1}^N(\bold x_n-\mu_{ML})(\bold x_n-\mu_{ML})^TμML=N1∑n=1N(xn−μML)(xn−μML)T
4 Parzen windows
(1) 密度估计
给定的一系列数量为nnn的样本x1,⋅⋅⋅,xn\mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_nx1,⋅⋅⋅,xn,可以估计密度函数p(x)p(\mathbf{x})p(x),从而根据任意新样本x\mathbf{x}x可以得到输出p(x)p(\mathbf{x})p(x)
大部分未知密度函数估计方法的基本思想都很简单,主要是依赖于样本落在区域RRR的概率PPP,即有P=∫Rp(x)dxP=\int_R p(\mathbf{x})d\mathbf{x}P=∫Rp(x)dx
假设区域RRR很小,P(x)P(\mathbf{x})P(x)在区域内波动很小,上式可以写做P=∫Rp(x)dx≈p(x)∫Rdx=p(x)VP=\int_R p(\mathbf{x})d\mathbf{x}\approx p(\mathbf{x})\int_R d\mathbf{x}=p(\mathbf{x})VP=∫Rp(x)dx≈p(x)∫Rdx=p(x)V,这里VVV是区域RRR的“量”(二维即为面积)
从另一方面看,假设nnn个样本x1,⋅⋅⋅,xn\mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_nx1,⋅⋅⋅,xn都是独立且服从概率密度函数p(x)p(\mathbf{x})p(x),且nnn个样本中有kkk个落在区域RRR里面,则有P=k/nP=k/nP=k/n,因此p(x)p(\mathbf{x})p(x)的估计式为p(x)=k/nVp(\mathbf{x})=\frac{k/n}{V}p(x)=Vk/n
(2)Parzen窗密度估计
考虑RRR是中心在x\mathbf{x}x的超立方体(例如二维平面),令hhh为超立方体的边缘长度,所以对于二维平面有有V=h2V=h^2V=h2,对于三维立体有V=h3V=h^3V=h3

引入ϕ(xi−xh)={1∣xik−xk∣h<=1/2,k=1,20otherwise\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})=\left\{ \begin{aligned} 1\quad& \frac{|x_{ik}-x_{k}|}{h}<=1/2, k=1,2 \\ 0\quad& otherwise \end{aligned} \right.ϕ(hxi−x)=⎩⎨⎧10h∣xik−xk∣<=1/2,k=1,2otherwise
Parzen概率密度公式(二维)为p(x)=k/nV=1n∑i=1n1h2ϕ(xi−xh)p(\mathbf{x})=\frac{k/n}{V}=\frac{1}{n}\sum_{i=1}^n {\frac{1}{h^2}\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})}p(x)=Vk/n=n1∑i=1nh21ϕ(hxi−x),ϕ(xi−xh)\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})ϕ(hxi−x)即为窗函数
我们归纳这个思想并拓展到其他Parzen窗密度估计法中
例如,如果使用高斯函数,对于一维有:p(x)=1n∑i=1n12πσexp(−(xi−x)22σ2)p(x)=\frac{1}{n}\sum_{i=1}^{n}{\frac{1}{\sqrt{2\pi\sigma}}\exp(-\frac{(x_i-x)^2}{2\sigma^2})}p(x)=n1∑i=1n2πσ1exp(−2σ2(xi−x)2),这是对nnn个将数据点作为中心的高斯函数的简单求平均,公式中的σ\sigmaσ需要再做确定
例子:
给定一个系列的5个数据点x1=2x_1=2x1=2,x2=2.5x_2=2.5x2=2.5,x3=3x_3=3x3=3,x4=1x_4=1x4=1,x5=6x_5=6x5=6,参数σ=1\sigma=1σ=1,中心x=3x=3x=3的高斯函数作为窗函数,求出Parzen概率密度估计(pdf)
解答:
12πexp(−(x1−x)22)=12πexp(−(2−3)22)=0.2420\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_1-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2-3)^2}{2})=0.24202π1exp(−2(x1−x)2)=2π1exp(−2(2−3)2)=0.2420
12πexp(−(x2−x)22)=12πexp(−(2.5−3)22)=0.3521\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_2-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2.5-3)^2}{2})=0.35212π1exp(−2(x2−x)2)=2π1exp(−2(2.5−3)2)=0.3521
12πexp(−(x3−x)22)=12πexp(−(3−3)22)=0.3989\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_3-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(3-3)^2}{2})=0.39892π1exp(−2(x3−x)2)=2π1exp(−2(3−3)2)=0.3989
12πexp(−(x4−x)22)=12πexp(−(1−3)22)=0.0540\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_4-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(1-3)^2}{2})=0.05402π1exp(−2(x4−x)2)=2π1exp(−2(1−3)2)=0.0540
12πexp(−(x5−x)22)=12πexp(−(6−3)22)=0.0044\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_5-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(6-3)^2}{2})=0.00442π1exp(−2(x5−x)2)=2π1exp(−2(6−3)2)=0.0044
因此,p(x=3)=(0.2420+0.3521+0.3989+0.0540+0.0044)/5=0.2103p(x=3)=(0.2420 + 0.3521 + 0.3989+0.0540 + 0.0044)/5 = 0.2103p(x=3)=(0.2420+0.3521+0.3989+0.0540+0.0044)/5=0.2103
下面用图形化语言表示Parzen窗,每个数据点密度函数(虚线)对于最终的概率密度函数(实线)有相同的贡献度


魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)