【机器学习】EM算法详解

对于这种无法直接求解的问题，我们通常会采用迭代求解的策略，一步一步逼近最终的结果，在EM算法中就是E步和M步的交替进行，直至收敛。EM算法用于具有隐变量模型的参数估计，如高斯混合模型，VAE算法推导的前置知识等，了解EM算法更能深刻理解许多复杂算法模型。因为ELBO没有大于等于0的保证，在kl最大化的同时，不能保证kl增加的幅度大于ELBO下降的幅度。在上面的推到中得到ELBO之后，其实求解参数的

一穷二白到年薪百万

2781人浏览 · 2022-10-08 23:43:54

一穷二白到年薪百万 · 2022-10-08 23:43:54 发布

1 引言

EM算法用于具有隐变量模型的参数估计，如高斯混合模型，VAE算法推导的前置知识等，了解EM算法更能深刻理解许多复杂算法模型。

本文为自学内容的记录，其中多有参考他人博客的地方在参考文献一并给出链接。

2 为什么需要EM算法

3 EM算法的推导

对于 $m$ 个相互独立的样本 $x=(x_1, x_2,\dots,x_m)$ ，对应的隐含数据 $z=(z_1,z_2,\dots,z_m)$ ，此时 $(x, z)$ 为完全数据，样本模型的参数为 $\theta$ 则观察数据 $x_i$ 的概率为 $P(x_i|\theta)$ ，完全数据 $x_i,z_i)$ 的似然函数为 $P(x_i,z_i|\theta)$ 。

假如没有隐含变量 $z$ ,仅需要找到合适的 $\theta$ 极大对数似然函数即可:
$\theta=\arg \max _{\theta} L(\theta)=\arg \max _{\theta} \sum_{i=1}^{m} \log P\left(x_{i} \mid \theta\right)$
增加隐含变量 $z$ 之后，我们的目标变成了找到合适的 $\theta$ 和 $z$ 让对数似然函数最大：
$\theta, z=\arg \max _{\theta, z} L(\theta, z)=\arg \max _{\theta, z} \sum_{i=1}^{m} \log \sum_{z_{i}} P\left(x_{i}, z_{i} \mid \theta\right)$

如果上式在 $l o g$ 里面会出现积分(求和)符号，导致对似然函数的求导变得困难，无法求解。对于这种无法直接求解的问题，我们通常会采用迭代求解的策略，一步一步逼近最终的结果，在EM算法中就是E步和M步的交替进行，直至收敛。

4 ELBO+KL形式

根据条件概率公式则
$\mid \theta)=\frac{P(X, Z \mid \theta)}{P(Z \mid X, \theta)}$
其中，上式引入了隐变量 $Z$ 和参数 $\theta$ ， $\mid X, \theta)$ 是后验概率。
对上式两边取对数
$\log P(X \mid \theta)=\log P(X, Z \mid \theta)-\log P(Z \mid X, \theta)$

下面的构造就比较有技巧性了，引入 $Z$ 的概率分布 $q (Z)$ （ $q (Z)$ 可以是任意一个分布，个人感觉这里是为了凑 $K L$ 散度公式，十分巧妙（见参考文献【8】））并且
$\int_{Z} q(Z) d Z=1$ ，则上式可以写为：

$\log P(X \mid \theta)=\log \frac{P(X, Z \mid \theta)}{q(Z)}-\log \frac{P(Z \mid X, \theta)}{q(Z)}$

然后两边同时求关于变量 $Z$ 的期望

$\mathbb{E}_{Z}[\log P(X \mid \theta)]=\mathbb{E}_{Z}\left[\log \frac{P(X, Z \mid \theta)}{q(Z)}\right]-\mathbb{E}_{Z}\left[\log \frac{P(Z \mid X, \theta)}{q(Z)}\right]$

将期望写成积分的形式（见参考文献【10】）

$\int_{Z} q(Z) \log P(X \mid \theta) d Z=\int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z-\int_{Z} q(Z) \log \frac{P(Z \mid X, \theta)}{q(Z)} d Z$

同时由于 $log(P(X|\theta))$ 和 $Z$ 无关，上式又可变换为：

$\log P(X \mid \theta)=\int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z-\int_{Z} q(Z) \log \frac{P(Z \mid X, \theta)}{q(Z)} d Z$
此处细节不了解的可见参考文献【9】，注意上式最右边的积分项 $-\int_{Z} q(Z) \log \frac{P(Z \mid X, \theta)}{q(Z)} d Z$ 这个其实就是 $q (Z)$ 和 $P(Z|X,\theta)$ 之间的相对熵Kullback-Leibler divergence (KL divergence)，记作：

$D_{K L}(q(Z) \| P(Z \mid X, \theta))=\int_{Z} q(Z) \log \frac{q(Z)}{P(Z \mid X, \theta)} d Z$

所以有

$\log P(X \mid \theta)=\int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z+D_{K L}(q(Z) \| P(Z \mid X, \theta))$

根据KL divergence的性质 $D_{K L}(q(Z) \| P(Z \mid X, \theta)) \geq 0$ 当且仅当 $\mid X, \theta)$ 取等号，因此有

$\log P(X \mid \theta) \geq \int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z$

因此便得到了 $\log P(X \mid \theta)$ 的一个下界称为Evidence Lower Bound (ELBO)，后面就可以通过迭代的方式不断抬高ELBO使得 $\log P(X \mid \theta)$ 增大。但目前还有一个问题， $q (Z)$ 是未知的下界还是没法求。我们可以直接在每一轮迭代时令 $q(Z)=P\left(Z \mid X, \theta^{(t)}\right)$ ，此时 $D_{K L}\left(q(Z) \| P\left(Z \mid X, \theta^{(t)}\right)\right)=0$
,因为我们想要ELBO和 $\log P(X \mid \theta)$ 的差距尽可能的小，这样抬高ELBO才会使得 $\log P(X \mid \theta)$ 的增益更大，所以将KL这一项直接置为0是比较合理的，此时ELBO就变为：
$\int_{Z} P\left(Z \mid X, \theta^{(t)}\right) \log \frac{P(X, Z \mid \theta)}{P\left(Z \mid X, \theta^{(t)}\right)} d Z=\mathbb{E}_{Z \mid X, \theta^{(t)}}\left[\log \frac{P(X, Z \mid \theta)}{P\left(Z \mid X, \theta^{(t)}\right)}\right]$
展开有
$\mathbb{E}_{Z \mid X, \theta^{(t)}}\left[\log \frac{P(X, Z \mid \theta)}{P\left(Z \mid X, \theta^{(t)}\right)}\right]=\mathbb{E}_{Z \mid X, \theta^{(t)}}[\log P(X, Z \mid \theta)]-\mathbb{E}_{Z \mid X, \theta^{(t)}}\left[\log P\left(Z \mid X, \theta^{(t)}\right]\right.$

因为我们最终的目标是求出某个 $\hat \theta$ 使得ELBO最大，上式的第二项与 $\theta$ 无关，可看成是一个常数，所以可以直接扔掉，则上式变为：

$\mathbb{E}_{Z \mid X, \theta^{(t)}}[\log P(X, Z \mid \theta)]$

这样我们得到了EM算法E-step求期望的那个式子。紧接着就是求解 $\theta$ ,使得该期望达到最大，即M-step
$\theta^{(t+1)}=\arg \max _{\theta} \mathbb{E}_{Z \mid X, \theta^{(t)}}[\log P(X, Z \mid \theta)]$

以上便是EM算法的ELBO+KL形式的推导过程。

4.1 QA

在上面的推到中得到ELBO之后，其实求解参数的问题就转化为使得ELBO最大的问题，参考文献【9】。
在这里插入图片描述

为什么要最大化ELBO，而不是直接最大化KL？
因为ELBO没有大于等于0的保证，在kl最大化的同时，不能保证kl增加的幅度大于ELBO下降的幅度。

5 算法收敛性证明

6 参考文献

[1]Jensen不等式初步理解及证明
 [2]联合概率、边缘概率、条件概率之间的关系&贝叶斯公式 [3]凸函数
 [4]原函数图像与导函数图像的关系探究
 [5]人人都能看懂的EM算法推导
 [6]机器学习-白板推导系列(十)-EM算法（Expectation Maximization）
[7]EM算法之KL散度和Jensen不等式
 [8]关于KL散度（Kullback-Leibler Divergence）的笔记
 [9]EM算法总结：从 ELBO + KL散度出发
 [10]如何计算数学期望
 [11]深入理解EM算法（ELBO+KL形式）

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came

魔乐社区

如何用pyecharts-gallery制作交互式地图？AMap与BMap组件实战教程

pyecharts-gallery是一个基于pyecharts的开源项目，提供了丰富的Echarts官方示例模仿实现，帮助开发者快速掌握交互式数据可视化技能。本文将聚焦于如何利用该项目中的AMap和BMap组件，轻松创建专业级交互式地图应用。## 一、快速入门：项目准备与环境搭建要开始使用pyecharts-gallery制作交互式地图，首先需要获取项目源码。通过以下命令克隆仓库：``