统计学习方法之最大熵模型

最大熵模型1. 最大熵原理最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。假设离散随机变量XXX的概率分布是P(X)P(X)P(X)，则熵为H(P)=−∑xP(x)logP(x)H(P)=-\sum_xP(x)logP(x)H(P)=−x∑P(x)logP(x)熵满足下列不等式：0≤H(P)≤log∣X∣0 \leq H(P) \leq log|X|0≤

何如千泷

705人浏览 · 2021-10-22 23:51:39

何如千泷 · 2021-10-22 23:51:39 发布

最大熵模型

1. 最大熵原理

最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。

假设离散随机变量 $X$ 的概率分布是 $P (X)$ ，则熵为
$H(P)=−∑xP(x)logP(x)H(P)=-\sum_xP(x)logP(x)$
熵满足下列不等式：
$\leq H(P) \leq log|X|$
其中， $∣ X ∣$ 是 $X$ 的取值个数，当 $X$ 服从均匀分布时，熵最大。

例：假如随机变量 $X$ 有5个取值 ${A,B,C,D,E\}$ ，要估计取各个值的概率 $P (A), P (B), P (C), P (D), P (E)$ 。

解：
这些概率值满足
$P (A) + P (B) + P (C) + P (D) + P (E) = 1$
满足这个约束条件的概率分布有无穷多个。如果没有任何其他信息，仍要对概率分布进行估计，一个办法就是认为这个分布中取各个值的概率是相等的:
$P(A)=P(B)=P(C)=P(D)=P(E)=15P(A)=P(B)=P(C)=P(D)=P(E)=\frac {1} {5}$

2. 最大熵模型的定义

假设分类模型是一个条件概率分布 $\in \Chi \subseteq R^n$ 表示输入， $\in \Upsilon$ 表示输出， $X\Chi$ 和 $Υ\Upsilon$ 分别是输入和输出集合。此模型表示的是对于给定的输入 $X$ ，以条件概率 $P (Y ∣ X)$ 输出 $Y$ 。给定训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，学习的目标是用最大熵原理选择最好的分类模型。

模型应该满足的条件：可以确定联合分布 $P (X, Y)$ 的经验分布和边缘分布 $P (X)$ 的经验分布，分布以 $P~(X,y)\tilde{P}(X,y)$ 和 $P~(X)\tilde {P}(X)$ 表示。
$P~(X=x,Y=y)=v(X=x,Y=y)N\tilde P(X=x, Y=y) = \frac {v(X=x, Y=y)} {N}$
$P~(X=x)=v(X=x)N\tilde P(X=x) = \frac {v(X=x)} {N}$
其中， $v (X = x, Y = y)$ 表示训练样本中样本 $(x, y)$ 出现的频数， $v (X = x)$ 表示训练样本中输入 $x$ 出现的频数， $N$ 表示训练样本的容量。

用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实。定义如下：
$f(x,y)={1,x与y满足某一事实0,otherf(x,y)=\begin{cases} 1, \quad x与y满足某一事实 \\ 0, \quad other \end{cases}$
特征函数 $f (x, y)$ 关于经验分布 $P~(X,Y)\tilde P(X, Y)$ 的期望值用 $EP~(f)E_{\tilde P}(f)$ 表示：
$EP~(f)=∑x,yP~(x,y)f(x,y)E_{\tilde P}(f)=\sum_{x,y}\tilde P(x,y)f(x,y)$
特征函数 $f (x, y)$ 关于模型 $P (Y ∣ X)$ 与经验分布 $P~(x)\tilde P(x)$ 的期望值用 $E_P(f)$ 表示：
$EP(f)=∑x,yP~(x)P(Y∣X)f(x,y)E_P(f)=\sum_{x,y}\tilde P(x) P(Y|X)f(x,y)$

如果模型能够获取训练数据中的信息，那么就可以假设这两个期望相等。即：
$EP(f)=EP~(f)E_P (f)=E_{\tilde P} (f)$

最大熵模型: 假设满足所有约束条件的模型集合为：
$C={P∈P∣EP(fi)=Ep(fi),i=1,2,...,n}C=\{P \in \Rho|E_P(f_i)=E_p(f_i), \quad i=1,2,...,n\}$
定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为：
$H(P)=−∑x,yP~(x)P(y∣x)logP(y∣x)H(P)=-\sum_{x,y} \tilde P (x)P(y|x)logP(y|x)$
则模型集合 $C$ 中条件熵 $H (P)$ 最大的模型称为最大熵模型

3. 最大熵模型的学习

对于给定的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 以及特征函数 $f_i(x,y), i=1,2,...,n$ ，最大熵模型的学习等价于约束最优化问题：
$max⁡P∈CH(P)=−∑x,yP~(x)P(y∣x)logP(y∣x)s.t.EP(fi)=EP~(fi),i=1,2,...,n∑yP(y∣x)=1\max_{P \in C}H(P)=-\sum_{x,y}\tilde P(x)P(y|x)logP(y|x)\\ s.t. \quad E_P(f_i)=E_{\tilde P}(f_i), \quad i=1,2,...,n\\ \sum_{y}P(y|x)=1 \quad \quad \quad \quad \quad$
将最大值问题改写为等价的最小值问题：
$min⁡P∈C−H(P)=∑x,yP~(x)P(y∣x)logP(y∣x)s.t.EP(fi)−EP~(fi)=0,i=1,2,...,n∑yP(y∣x)=1\min_{P \in C}-H(P)=\sum_{x,y}\tilde P(x)P(y|x)logP(y|x)\\ s.t. \quad E_P(f_i)-E_{\tilde P}(f_i)=0, \quad i=1,2,...,n\\ \sum_{y}P(y|x)=1 \quad \quad \quad \quad \quad \quad \quad$
引入拉格朗日乘子 $w_0,w_1,w_2,...,w_n$ ，定义拉格朗日函数 $L (P, w)$ ：
$L(P,w)=−H(P)+w0(1−∑yP(y∣x))+∑i=1nwi(EP(fi)−EP~(fi))=∑x,yP~(x)P(y∣x)logP(y∣x)+w0(1−∑yP(y∣x))+∑i=1nwi(∑x,yP~(x,y)fi(x,y)−∑x,yP~(x)P(y∣x)fi(x,y))L(P,w)=-H(P)+w_0(1-\sum_{y}P(y|x))+\sum_{i=1}^nw_i(E_P(f_i)-E_{\tilde P}(f_i)) \\ =\sum_{x,y}\tilde P(x)P(y|x)logP(y|x)+w_0(1-\sum_{y}P(y|x))+\\ \sum_{i=1}^nw_i(\sum_{x,y}\tilde P(x,y)f_i(x,y)-\sum_{x,y}\tilde P(x)P(y|x)f_i(x,y))$
最优化的原始问题是：
$min⁡P∈Cmax⁡wL(P,w)\min_{P \in C} \max_{w} L(P,w)$
对偶问题为：
$max⁡wmin⁡P∈CL(P,w)\max_{w} \min_{P \in C}L(P,w)$
由于拉格朗日函数 $L (P, w)$ 是 $P$ 的凸函数，所有原始问题的解与对偶问题的解等价。首先求解对偶问题内部的极小化问题 $min⁡P∈CL(P,w)\min_{P \in C}L(P,w)$ 。 $min⁡P∈CL(P,w)\min_{P \in C}L(P,w)$ 是 $w$ 的函数，记作
$Ψ(w)=min⁡P∈CL(P,w)=L(Pw,w)\Psi(w)=\min_{P \in C}L(P,w)=L(P_w,w)$
$Ψ(w)\Psi(w)$ 称为对偶函数，其解记作：
$min⁡P∈CL(P,w)=Pw(y∣x)P_w=\argmin_{P\in C}L(P,w)=P_w(y|x)$

具体地，求 $L (P, w)$ 对 $P (y ∣ x)$ 的偏导
$\begin{aligned} \frac {\partial L(P,w)} {\partial P(y|x)} = \sum_{x,y} \tilde P(x)(logP(y|x)+1)-\sum_{y}w_0 -\sum_{x,y}(\tilde P(x)\sum_{i=1}^nw_if_i(x,y)) \\ =\sum_{x,y}\tilde P(x)(logP(y|x)+1-w_0-\sum_{i=1}^nw_if_i(x,y)) \quad \quad \quad \quad \quad \quad\end{aligned}$
令偏导等于0，则有
$P(y∣x)=exp(∑i=1nwifi(x,y)+w0−1)=exp(∑i=1nwifi(x,y))exp(1−w0)P(y|x)=exp(\sum_{i=1}^nw_if_i(x,y)+w_0-1)=\frac {exp(\sum_{i=1}^nw_if_i(x,y))} {exp(1-w_0)}$
由于 $∑yP(y∣x)=1\sum_yP(y|x)=1$ ，得
$Pw(y∣x)=1Zw(x)exp(∑i=1nwifi(x,y))P_w(y|x)= \frac {1} {Z_w(x)}exp(\sum_{i=1}^nw_if_i(x,y))$
其中
$Zw(x)=∑yexp(∑i=1nwifi(x,y))Z_w(x)=\sum_yexp(\sum_{i=1}^nw_if_i(x,y))$
$Z_w(x)$ 称为规范化因子； $f_i(x,y)$ 是特征函数； $w_i$ 是特征的权值。

$P_w=P_w(y|x)$ 就是最大熵模型。 $w$ 是最大熵模型中的参数向量。

之后，求解对偶问题外部的极大化问题
$max⁡wΨ(w)\max_{w} \Psi(w)$
将其解记为 $w^*$ ，即
$max⁡wΨ(w)w^*=\argmax_{w} \Psi(w)$
这里， $P^*=P_{w^*}=P_{w^*}(y|x)$ 是学习到的最优化模型，即最大熵模型的学习为对偶函数 $Ψ(w)\Psi(w)$ 的极大化。

4. 例子分析

假设随机变量 $X$ 有5个取值 ${A, B, C, D, E\}$ ，满足约束条件 $P(A)+P(B)=310P(A)+P(B)=\frac {3} {10}$ ，求取各个值的概率。

解：

用 $y_1,y_2,y_3,y_4,y_5$ 分别表示 $A, B, C, D, E$ ，于是最大熵模型学习的最优化问题为：
在这里插入图片描述

引进拉格朗日乘子 $w_0,w_1$ ，定义拉格朗日函数
在这里插入图片描述

根据拉格朗日对偶性，可以通过求解对偶最优化问题得到原始最优化问题的解，所以求解
$max_{w}\min_{P}L(P,w)$
首先求解 $L (P, w)$ 关于 $P$ 的最小化问题，求偏导并
在这里插入图片描述

令其等于0，解得：
在这里插入图片描述

于是
在这里插入图片描述

再求解 $L(P_w,w)$ 关于 $w$ 的极大值问题：
在这里插入图片描述

分别对 $w_0,w_1$ 求偏导并令其为0，得到
$e−w0−w1−1=320e−w0−1=730e^{-w_0-w_1-1}=\frac{3} {20}\\ e^{-w_0-1}=\frac {7} {30}$
于是得到所要求的概率分别为
$P(y1)=P(y2)=320P(y_1)=P(y_2)=\frac {3} {20}$
$P(y3)=P(y4)=P(y5)=720P(y_3)=P(y_4)= P(y_5) = \frac {7} {20}$