【机器学习课程】高斯分布

洌泉_就这样吧

601人浏览 · 2021-05-26 22:13:39

洌泉_就这样吧 · 2021-05-26 22:13:39 发布

1 概率密度函数

对于一个连续的概率密度方程， $p (x)$ ，满足下列特性：

处理a和b两点之间的x满足：
$\int_a^b p(x)dx$
对于所有实数x，其值是非负的
概率函数的积分为1，即有：
$∫∞∞p(x)dx=1\int_\infty^\infty p(x)dx=1$
扩展到向量 $x\bold x$ ，可以有非负的 $p(x)p(\bold x)$ 具有以下性质：
$x\bold x$ 在一个区域 $Ω\Omega$ 里的概率为： $P=∫Ωp(x)dxP=\int_\Omega p(\bold x)d{\bold x}$
概率方程的积分值为1，即有： $∫p(x)dx=1\int p(\bold x)d\bold x=1$

2 高斯分布

高斯函数是使用最普遍的概率函数，高斯分布也称为正态分布，其函数为：
$p(x)=N(x∣μ,σ2)=12πσexp⁡(−(x−μ)22σ2)p(x)=N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
其中， $μ\mu$ 是平均数， $σ2\sigma^2$ 是方差， $σ\sigma$ 是标准偏差

在这里插入图片描述
对于D维向量 $x\bold x$ 的高斯函数为：
$N(x∣μ,Σ)=1(2π)D/2∣Σ∣D/2exp⁡(−12(x−μ)TΣ−1(x−μ))N(\bold x|\mu,\Sigma)=\frac{1}{(2\pi)^{D/2}|\Sigma|^{D/2}}\exp\left(-\frac{1}{2}(\bold x-\mu)^T\Sigma^{-1}(\bold x-\mu)\right)$
其中 $μ\mu$ 也称为平均向量， $Σ\Sigma$ 称为协方差矩阵（正定）， $∣Σ∣|\Sigma|$ 也称为 $Σ\Sigma$ 的行列式
在这里插入图片描述

3 高斯函数的最大似然估计

给定数据集 $,xN\bold X={\bold x_1,\cdots,\bold x_N}$ ，其中 $xn\bold x_n$ 假设为独立地从一个多变量的高斯分布中取出的，我们可以采用最大似然估计来确定密度参数

对数似然函数为：
$log⁡p(X∣μ,Σ)=−ND2log⁡(2π)−N2log⁡∣Σ∣−12∑n=1N(xn−u)TΣ−1(xn−μ)\log p(\bold X|\mu,\Sigma)=-\frac{ND}{2}\log(2\pi)-\frac{N}{2}\log|\Sigma|-\frac{1}{2}\sum_{n=1}^N(\bold x_n-u)^T\Sigma^{-1}(\bold x_n-\mu)$

令上述式子对于均值 $μ\mu$ 的微分等于0，可以得到：
$∑n=1NΣ−1(xn−u)=0\sum_{n=1}^N\Sigma^{-1}(\bold x_n-u)=0$
因此， $μML=1N∑n=1N(xn−μML)(xn−μML)T\mu_{ML}=\frac{1}{N}\sum_{n=1}^N(\bold x_n-\mu_{ML})(\bold x_n-\mu_{ML})^T$

4 Parzen windows

（1）密度估计

给定的一系列数量为 $n$ 的样本 $x1,⋅⋅⋅,xn\mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_n$ ，可以估计密度函数 $p(x)p(\mathbf{x})$ ，从而根据任意新样本 $x\mathbf{x}$ 可以得到输出 $p(x)p(\mathbf{x})$

大部分未知密度函数估计方法的基本思想都很简单，主要是依赖于样本落在区域 $R$ 的概率 $P$ ，即有 $P=∫Rp(x)dxP=\int_R p(\mathbf{x})d\mathbf{x}$
假设区域 $R$ 很小， $P(x)P(\mathbf{x})$ 在区域内波动很小，上式可以写做 $P=∫Rp(x)dx≈p(x)∫Rdx=p(x)VP=\int_R p(\mathbf{x})d\mathbf{x}\approx p(\mathbf{x})\int_R d\mathbf{x}=p(\mathbf{x})V$ ，这里 $V$ 是区域 $R$ 的“量”（二维即为面积）

从另一方面看，假设 $n$ 个样本 $x1,⋅⋅⋅,xn\mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_n$ 都是独立且服从概率密度函数 $p(x)p(\mathbf{x})$ ，且 $n$ 个样本中有 $k$ 个落在区域 $R$ 里面，则有 $P = k / n$ ，因此 $p(x)p(\mathbf{x})$ 的估计式为 $p(x)=k/nVp(\mathbf{x})=\frac{k/n}{V}$

（2）Parzen窗密度估计

考虑 $R$ 是中心在 $x\mathbf{x}$ 的超立方体（例如二维平面），令 $h$ 为超立方体的边缘长度，所以对于二维平面有有 $V=h^2$ ，对于三维立体有 $V=h^3$

Parzen-Window

引入 $ϕ(xi−xh)={1∣xik−xk∣h<=1/2,k=1,20otherwise\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})=\left\{ \begin{aligned} 1\quad& \frac{|x_{ik}-x_{k}|}{h}<=1/2, k=1,2 \\ 0\quad& otherwise \end{aligned} \right.$
Parzen概率密度公式（二维）为 $p(x)=k/nV=1n∑i=1n1h2ϕ(xi−xh)p(\mathbf{x})=\frac{k/n}{V}=\frac{1}{n}\sum_{i=1}^n {\frac{1}{h^2}\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})}$ ， $ϕ(xi−xh)\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})$ 即为窗函数
我们归纳这个思想并拓展到其他Parzen窗密度估计法中
例如，如果使用高斯函数，对于一维有： $p(x)=1n∑i=1n12πσexp⁡(−(xi−x)22σ2)p(x)=\frac{1}{n}\sum_{i=1}^{n}{\frac{1}{\sqrt{2\pi\sigma}}\exp(-\frac{(x_i-x)^2}{2\sigma^2})}$ ，这是对 $n$ 个将数据点作为中心的高斯函数的简单求平均，公式中的 $σ\sigma$ 需要再做确定

例子：
给定一个系列的5个数据点 $x_1=2$ ， $x_2=2.5$ ， $x_3=3$ ， $x_4=1$ ， $x_5=6$ ，参数 $σ=1\sigma=1$ ，中心 $x = 3$ 的高斯函数作为窗函数，求出Parzen概率密度估计（pdf）
解答：
$12πexp⁡(−(x1−x)22)=12πexp⁡(−(2−3)22)=0.2420\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_1-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2-3)^2}{2})=0.2420$
$12πexp⁡(−(x2−x)22)=12πexp⁡(−(2.5−3)22)=0.3521\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_2-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2.5-3)^2}{2})=0.3521$
$12πexp⁡(−(x3−x)22)=12πexp⁡(−(3−3)22)=0.3989\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_3-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(3-3)^2}{2})=0.3989$
$12πexp⁡(−(x4−x)22)=12πexp⁡(−(1−3)22)=0.0540\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_4-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(1-3)^2}{2})=0.0540$
$12πexp⁡(−(x5−x)22)=12πexp⁡(−(6−3)22)=0.0044\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_5-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(6-3)^2}{2})=0.0044$
因此， $p (x = 3) = (0.2420 + 0.3521 + 0.3989 + 0.0540 + 0.0044) / 5 = 0.2103$

下面用图形化语言表示Parzen窗，每个数据点密度函数（虚线）对于最终的概率密度函数（实线）有相同的贡献度

lines-of-data-points

line-of-pdf.

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模