【机器学习基础】EM算法详解及其收敛性证明

EM算法详解1. 单高斯模型：2. 混合高斯模型3. 最大似然估计4. 最大似然估计的局限5. 最大期望估计（EM算法）6. EM算法收敛性的证明1. 单高斯模型：1.1 一维高斯分布：高斯分布（Gaussian Distribution）又叫正态分布（Normal Distribution），是一种常用的概率分布，其一维分布如图：服从均值为μ\mu...

BIT可达鸭

11447人浏览 · 2020-01-20 08:46:49

BIT可达鸭 · 2020-01-20 08:46:49 发布

EM算法详解

（一）单高斯模型
- 1.1 一维高斯分布：
- 1.2 多维高斯分布：
（二）最大似然估计
（三）混合高斯模型
（四）最大似然估计的局限
- 4.1 混合模型的似然函数：
- 4.2 对数似然函数估计时的问题：
（五）最大期望估计（EM算法）
（六）EM算法收敛性的证明
（七）EM算法的应用——视频背景分割：
关注我的公众号：

（一）单高斯模型

1.1 一维高斯分布：

高斯分布（Gaussian Distribution）又叫正态分布（Normal Distribution），是一种常用的概率分布。

对于一组数据，其分布如图，我们可以用高斯模型去拟合这组数据的分布：
在这里插入图片描述
服从均值为 $\mu$ 、标准差为 $\sigma$ 的高斯分布在x点的概率密度为：

我们通常使用一个线性变换，将其转换成均值为0、方差为1的标准正态分布：

在这里插入图片描述

1.2 多维高斯分布：

在这里插入图片描述
以二维高斯分布为例，我们现在判断的是一个多维向量（这里是二维）X = (x₁, x₂)，其分布为服从均值为 $\mu$ ₁ $\mu$ ₂、标准差为 $\sigma$ ₁ $\sigma$ ₂的高斯分布：

（二）最大似然估计

2.1 最大似然估计的数学概念：

假设我们手中有一个样本集X，X={ x₁，x₂，……，x_N } 共N个样本，我们假设其符合均值为 $\mu$ 、标准差为 $\sigma$ 的高斯分布：
在这里插入图片描述
这时我们需要通过一定的方法去估计这个高斯分布的均值 $\mu$ 和标准差 $\sigma$ ，方法之一就是最大似然估计。

2.2 最大似然估计的基本步骤：

2.2.1 构造似然函数：

在这里插入图片描述
由于我们假设这个样本符合高斯分布（均值 $\mu$ 和标准差 $\sigma$ 未知，记为 $\theta$ ），那么X中的某个样本 $x_{i}$ 在参数 $\theta=\lbrace \mu，\sigma \rbrace$ 下取得相应的值的概率为 $f(x_{i})$ ，记为 $f(x_{i} ; \theta)$ ;

我们构造一个函数 $L(\theta)$ ，称之为似然函数：
在这里插入图片描述
那么使L( $\theta$ )最大的参数 $\theta$ （注意x_i均已知），就是我们的估计值；

2.2.2 对数似然函数：

然后对似然函数L( $\theta$ )取对数，得到对数似然函数：
在这里插入图片描述
这里求对数的原因是我们下一步需要求偏导，这里使用对数将乘除转换成加减，便于计算；

2.2.3 计算参数估计值：

然后对对数似然函数求导，并令其为0（注意多个参数时分别求偏导）：

在这里插入图片描述
就得到了参数 $\theta$ 的估计值；

对于一维高斯分布：
在这里插入图片描述
（注意求得参数 $\theta$ 的时候需要先求 $\mu$ ，因为 $\sigma$ 的估计值中有 $\mu$ ）

（三）混合高斯模型

3.1 单高斯模型的局限：

但是现实中往往我们得到的数据的分布并不均匀：

在这里插入图片描述

如果我们继续使用单个高斯模型去拟合这组数据，得到的结果可能是一个均值 $\mu$ 为所有x的均值、标准差 $\sigma$ 非常大的一个分布：
在这里插入图片描述

显然这并不能很好地拟合这组数据的分布，因为对于高斯分布，越往均值处（椭圆中心）数据分布应该越密集，但似乎这组数据有不同的概率中心，即这组数据可能分别属于不同的高斯分布；

这时候就需要混合高斯模型了。

3.2 全概率公式：

在这里插入图片描述
全概率公式为概率论中的重要公式，它将对一复杂事件A（取得x）的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题；

3.3 混合高斯模型的概念：

复杂的数据往往是多峰的（如上图），这时我们就使用多个高斯分布来描述这样的数据分布，公式满足全概率公式：
在这里插入图片描述

其中：

$p (x)$ 是样本取得x值的概率；
$K$ 表示共有K个模型；
$p (k)$ 表示x属于第k个高斯模型的概率；
$p (x ∣ k)$ 表示在第k个高斯模型下取得x的概率；

那么p(x)也等价为：
在这里插入图片描述
其中：
5. $\pi$ _$k$ 是第k个高斯模型的权重；
6. $\mu$ _$k$ 是第k个高斯模型的均值；
7. $\varepsilon$ _$k$ 是第k个高斯模型的标准差；

此时K个模型组成的混合高斯模型的参数为：

$\theta$ = { $\pi$ ₁,……, $\pi$ _K-1, $\mu$ ₁,……, $\mu$ _K, $\varepsilon$ ₁,……, $\varepsilon$ _$K$ }

（注意这里由于 $\sum_{k=1}^K$ $\pi$ _k = 1，故参数 $\pi$ 的自由度为K-1）

（四）最大似然估计的局限

4.1 混合模型的似然函数：

这时我们再尝试用最大似然估计的方法来估计参数 $\theta$ 的值：
在这里插入图片描述

我们可以看到这里的对数似然函数中， $l n ()$ 里面包含了求和项：

在这里插入图片描述

4.2 对数似然函数估计时的问题：

即使我们已经对似然函数取了对数，但是求出的偏导中各个参数的估计值相互关联，计算非常复杂；

这时我们就需要找一种方法，能够用相对简单的方式去估计或者去迭代趋近这个估计值；这种方法就叫做最大期望算法（Expectation-Maximization algorithm，简称EM算法）。

（五）最大期望估计（EM算法）

5.1 EM算法的基本概念：

在这里插入图片描述
EM算法的核心概念就是：

通过引入隐藏变量构造一个更为简单的函数（记为 $Q$ 函数），对 $Q$ 函数进行最大似然估计计算参数的估计值 $\theta$ ；

如果能够证明每次迭代时通过最大化 $Q(\theta^{t-1})$ 时得到的参数 $\theta$ 的新的估计值 $\theta^{t}$ 满足：
在这里插入图片描述
那么第t次迭代的参数的估计值为：

通过不断迭代，就可以最终得到收敛的参数 $\theta$ ，此时我们认为这个 $\theta$ 就是我们分布模型的参数的估计值。

5.2 Q函数公式：

我们构造如图所示的Q函数：

在这里插入图片描述

其中：

$X$ 是样本集， $X=\lbrace x_{1},x_{2},……,x_{N} \rbrace$ ；
$Z$ 是隐藏参数， $Z=\lbrace z_{1},z_{2},……,z_{N}\rbrace$ ，其中 $z_{i}=k$ 表示 $x_{i}$ 属于第k个高斯模型；
$\theta$ 是待估参数， $\theta=\lbrace\mu_{1},……,\mu_{N},\varepsilon_{1},……,\varepsilon_{N}\rbrace$ ；

即，第t次迭代的结果为：
在这里插入图片描述

5.3 EM算法的基本步骤：

注：具体的公式推导会写在收敛性的证明里面；

5.3.1 模型参数的初始化：

这时我们明白了EM算法的基本原理，但是当我们开始第一次迭代的时候会发现一个很重要的问题：

我们需要知道 $Z^0=\lbrace z_{0,1},z_{0,2},……,z_{0,N}\rbrace$ （z下标第一个数为迭代次数t），才能根据 $Z$ 写出函数 $Q$ ，并获得参数 $\theta$ 的估计值；
但是，同时我们也需要知道 $\theta^0$ 的值，才能根据混合高斯模型的公式推导出样本X的分布属于哪一个单高斯模型，即 $Z$ 的值；

这样似乎我们就陷入了一个两难的境地；

但是由于我们知道，每次迭代得到的值 $\theta^{t}$ 都越来越接近参数 $\theta$ 的估计值，因此我们不如在抽样之前先给每种样本依照经验赋予一个初始分布（即变量 $\theta^0$ ），再依照分布求取隐藏变量 $Z$ 的期望，这样再开始不断迭代，就能得到最终的 $\theta$ ;

在这里插入图片描述

5.3.2 E-Step：

E-Step 指的是Exception步骤，即求取样本 $X$ 的隐藏变量 $Z$ 的期望 $Z^{t-1}$ ：

如果是第1次运行E-Step，使用初始化的高斯混合分布函数确定样本 $X=\lbrace x_{1},x_{2},…,x_{N} \rbrace$ 属于的概率最大的分类，从而预估隐藏参数 $Z^{0}$ ；
如果是第 $t$ 次运行E-Step，则使用经过 $t - 1$ 次迭代、参数为 $\theta^{t-1}$ 的高斯混合分布函数确定隐藏参数 $Z^{t-1}$ 。