机器学习-白板推导系列(八)-指数族分布

8. 指数族分布8.1 背景8.1.1 指数族分布的基本形式

Paul-Huang

1019人浏览 · 2021-01-28 22:57:23

Paul-Huang · 2021-01-28 22:57:23 发布

8. 指数族分布

8.1 背景

本节主要对指数族分布的概念和性质的一个小小的总结。指数族分布是一个广泛存在于机器学习研究中的分布。包括：Guassian分布、Bernoulli分布(类别分布)、二项分布(多项式分布)、泊松分布、Beta分布、Dirichlet分布、Gamma分布和Gibbs分布等。

8.1.1 指数族分布的基本形式

基本形式
指数族分布的基本形式可以表示为：
$\color{red}P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}.\tag{8.1.1}$
其中：
- $η\color{blue}\eta$ ：参数向量， $η∈Rp\eta \in \mathbb{R}^p$ 。
- $ϕ(x)\color{blue}\phi (x)$ ：Sufficient statistic(充分统计量)；
- $A(η)\color{blue}A(\eta)$ ：log partition function (log 配分函数)。
- $h(x)\color{blue}h(x)$ ：这个函数只和 $x$ 有关系，所以并不是很重要。
$η\eta$ 和 $h (x)$ 的理解比较简单，但是log partition function的理解难度比较大。所以，在这里对此函数做出一定的解释。
配分函数
通常如果我们得到一个可以表达分布的函数 $P^(x∣θ)\hat{P}(x|\theta )$ 但是其积分不为 $1$ ，需要除以一个归一化因子 $z$ 来将其归一，这个归一化因子 $z$ 就是配分函数， $z$ 取值为 $P^(x∣θ)\hat{P}(x|\theta )$ 的积分。
- $P(x∣θ)=1zP^(x∣θ)P(x|\theta )=\frac{1}{z}\hat{P}(x|\theta )$ ，则：
  $∫P(x∣θ)dx=∫1zP^(x∣θ)dx⇒1=1z∫P^(x∣θ)dx⇒z=∫P^(x∣θ)dx\int P(x|\theta )\mathrm{d}x=\int \frac{1}{z}\hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow 1=\frac{1}{z}\int \hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow z=\int \hat{P}(x|\theta )\mathrm{d}x$
- 指数族函数中有关于 $A(η)A(\eta)$ 的配分函数的推导如下：
  $p(x|\eta) = h(x)exp\{ \eta^T\phi(x)\}exp\{-A(\eta)\} \\ = \frac{1}{exp\{A(\eta)\}} h(x)exp\{ \eta^T\phi(x)\}$
  $∫p(x∣η)dx=∫1exp{A(η)}h(x)exp{ηTϕ(x)}dx=1exp{A(η)}=∫h(x)exp{ηTϕ(x)}dxA(η)=log⁡∫h(x)exp{ηTϕ(x)}dx\int p(x|\eta) dx = \int \frac{1}{exp\{A(\eta)\}} h(x)exp\{ \eta^T\phi(x)\} dx = 1 \\ exp\{A(\eta)\} = \int h(x)exp\{ \eta^T\phi(x)\} dx \\ A(\eta) = \log \int h(x)exp\{ \eta^T\phi(x)\} dx$
  因此 $exp{A(η)}exp\left \{A(\eta )\right \}$ 就是配分函数， $A(η)A(\eta )$ 就是 $log配分函数\color{blue}log配分函数$ 。

8.1.2 指数族分布的相关知识

指数族分布的相关知识，可以用下面这张图表来进行概况：
在这里插入图片描述

充分统计量
- 充分统计量是一个有关于样本的函数， $统计量可以完整的表示出数据集整体的特征\color{red}统计量可以完整的表示出数据集整体的特征$ 。从某种意义上说，我们可以丢弃样本数据集。
- 以Guassian Distribution进行举例，数据集Data set为： $,xN}\{x_1,x_2,x_3,\cdots ,x_N\}$ ，我们只需要一组充分统计量：
  $φ(x)=(∑i=1Nxi∑i=1Nxi2).(8.1.2)\varphi(x) = \begin{pmatrix} \sum_{i=1}^Nx_i \\ \sum_{i=1}^Nx_i^2 \end{pmatrix}.\tag{8.1.2}$
  就可以反映出Guassian的所有特征 $θ=(μ,Σ)\theta=(\mu, \Sigma)$ ，因为通过上述统计量可以计算样本的均值和方差进而得到其明确的分布。
- 充分统计量在 $learning\color{blue}online\;learning$ 中的使用有很大的作用。这样可以不记录那么多的数据集，只使用少量的数据就可以估计得到数据集整体的特征，可以用来简化计算。
共轭
- 在贝叶斯公式：
  $P(z∣x)=P(x∣z)P(z)∫zP(x∣z)P(z)dzP(z|x)=\frac{P(x|z)P(z)} {\int _{z}P(x|z)P(z)\mathrm{d}z}$
  其中， $p (z ∣ x)$ 为后验概率分布， $p (x ∣ z)$ 为似然函数， $p (z)$ 为先验分布。在求解 $∫zp(x∣z)p(z)dz\int_{z}p(x|z)p(z)dz$ 时，计算难度非常大。很多时候，根本算不出来。
  
  有时候，就算求得了 $p (z ∣ x)$ ，也有可能因为 $p (z ∣ x)$ 的形式过于复杂，导致 $Ep(z∣x)[f(x)]\mathbb{E}_{p(z|x)}[f(x)]$ 根本算不出来。所以，为了解决这个问题，科研人员们想了很多的办法。就有了近似推断的方法，比如， $变分和采样\color{red}变分和采样$ 。
- 共轭的概念是指在给定一个特殊的 $似然(P(x∣z))\color{blue}似然(P(x|z))$ 的情况下， $后验(P(z∣x))\color{blue}后验(P(z|x))$ 与 $先验(P(z))\color{blue}先验(P(z))$ 会有一个相同的分布形式，这也就解决了上述积分困难的问题，避免了就分母上的积分项常数，大大简化计算，举例:
  $p(z∣x)∝p(x∣z)p(z),(8.1.3)\color{red}p(z|x)\varpropto p(x|z)p(z),\tag{8.1.3}$
  如果， $p (x ∣ z)$ 为二项分布， $p (z)$ 为Beta分布，那么后验分布 $p (z ∣ x)$ 也为Beta分布。
- $变分\color{red}变分$ 的方法，是用简单的分布来拟合一个很难计算的分布，从而计算得出 $p (z ∣ x)$ 的近似分布形式。而 $采样\color{red}采样$ 的方法，比如蒙特卡罗采样，隐马尔可夫、蒙特卡罗采样(MCMC)等，是直接来求 $Ep(z∣x)[f(x)]\mathbb{E}_{p(z|x)}[f(x)]$ ，这样直接跳过了中间那一堆的过程，在强化学习中经常使用。
最大熵原理
1. $最大熵主要用于无信息先验\color{red}最大熵主要用于无信息先验$ 。当给定一个限制条件的情况下，对于未知部分，我们假设它们等可能发生，但我们无法定量分析。而熵可以进行定量分析，求解最大熵，熵越大则随机性越强。
无信息先验：
在贝叶斯估计中，我们往往需要给先验一个参数，有如下方法：
- $共轭\color{blue}共轭$ ：为了计算方便
- $最大熵思想\color{blue}最大熵思想$ ：从最大熵的角度给予先验的参数（无信息先验）
- $Jerrif\color{blue}Jerrif$
广义线性模型
指数族分布在此模型中占据重要地位。广义线性模型主要是为了解决回归和分类问题，在线性模型的基础上进行扩展，有如下：
$function→(激活函数)−1指数族分布：y∣x∼指数族分布{线性回归：y∣x∼N(μ,Σ)分类：y∣x∼Bernoulli泊松回归：y∣x∼Possion(8.1.4)\color{red}\left\{\begin{matrix} 线性组合w^{T}x\\ link\; function\rightarrow (激活函数)^{-1}\\ 指数族分布：y|x\sim 指数族分布\left\{\begin{matrix} 线性回归：y|x\sim N(\mu ,\Sigma )\\ 分类：y|x\sim Bernoulli\\ 泊松回归：y|x\sim Possion \end{matrix}\right. \end{matrix}\right.\tag{8.1.4}$
概率图模型
包括无向图等，有玻尔兹曼滤波器等。
变分推断
变分推断在指数族分布占据重要地位。若其中的分布满足指数族分布，则会使变分推断大大简化。

8.2 高斯分布的指数族形式

本节的主要是将高斯函数的形式转换为指数族分布的通用表达形式。

8.2.1 概述

指数族分部形式
上一节给出了指数族分布的统一表达形式：
$p(x∣y)=h(x)exp{ηTϕ(x)−A(η)}.(8.2.1)\color{red}p(x|y)=h(x)exp\left\{ \eta^T\phi(x)-A(\eta) \right\}.\tag{8.2.1}$
- $η\eta$ ：参数向量parameter， $η∈Rp\eta \in \mathbb{R}^p$ 。
- $A(η)A(\eta)$ ：log partition function (对数配分函数)。
- $ϕ(x)\phi(x)$ ：sufficient statistics magnitude(充分统计量)。
高斯分布的概率密度函数
高斯分布的概率密度函数可表示为：
$p(x∣μ,σ2)=12πσexp{−(x−μ)2σ2}.(8.2.2)\color{red}p(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}exp\left\{ -\frac{(x-\mu)^2}{\sigma^2} \right\}.\tag{8.2.2}$
本节将高斯分布转换为指数族分布的形式( $θ=(μ,σ2)\theta =(\mu, \sigma^2)$ ).

8.2.2 转换过程

对公式(8.2.2)进行转换：
$P(x∣θ)=12πσexp⁡{−(x−μ)22σ2}=12πσ2exp⁡{−12σ2(x−μ)2}=exp⁡(log⁡(2πσ2)−12)exp⁡{−12σ2(x2−2μx+μ2)}=exp⁡{−12σ2(x2−2μx)−μ22σ2−12log⁡(2πσ2)}=exp⁡{(−12σ2μσ2)(x2x)−(μ22σ2+12log⁡(2πσ2))}=exp⁡{(μσ2−12σ2)⏟ηT(xx2)⏟ϕ(x)−(μ22σ2+12log⁡(2πσ2))⏟A(η)}.(8.2.3)\begin{array}{ll}P(x|\theta)&={1\over\sqrt{2\pi}\sigma}\exp\{ -{(x-\mu)^2\over 2\sigma^2}\} ={1\over\sqrt{2\pi \sigma^2}}\exp\{ -{1\over 2\sigma^2} (x-\mu)^2\}\\ &=\exp(\log(2\pi \sigma^2)^{-{1\over 2}})\exp\{ -{1\over 2\sigma^2} (x^2-2\mu x+\mu^2)\}\\ &=\exp\{-{1\over 2\sigma^2}(x^2-2\mu x)-{\mu^2 \over 2\sigma^2}-{1\over2}\log(2\pi\sigma^2)\}\\ &=\exp\{ \begin{pmatrix}-{1\over 2\sigma^2}&{\mu\over \sigma^2} \end{pmatrix} \begin{pmatrix}x^2 \\ x\end{pmatrix}-({\mu^2 \over 2\sigma^2}+{1\over2}\log(2\pi\sigma^2))\}\\ &=\exp\{ \color{red}{\underbrace{\begin{pmatrix}{\mu\over \sigma^2} &-{1\over 2\sigma^2}\end{pmatrix} }_{\eta^T} } \color{blue}{\underbrace{\begin{pmatrix}x \\ x^2\end{pmatrix}}_{\phi(x)}}-\color{green}{\underbrace{ ({\mu^2 \over 2\sigma^2}+{1\over2}\log(2\pi\sigma^2)) }_{A(\eta)}}\}\end{array} .\tag{8.2.3}$
可得：
- $ϕ(x)=(xx2)\phi(x)= \begin{pmatrix} x \\ x^2 \end{pmatrix}$
- $η=(η1η2)=(μσ2−12σ2)⟹{η1=μσ2η2=−12σ2⟹{μ=−η12η2σ2=−12η2(8.2.4)\eta=\begin{pmatrix}\eta_1 \\\eta_2\end{pmatrix} =\begin{pmatrix}\frac{\mu}{\sigma^2} \\-\frac{1}{2\sigma^2} \end{pmatrix} \Longrightarrow \left\{ \begin{array}{ll} \eta_1 = \frac{\mu}{\sigma^2} & \\ \eta_2 = -\frac{1}{2\sigma^2} &\end{array}\right.\Longrightarrow\left\{\begin{array}{ll}\mu = -\frac{\eta_1}{2\eta_2} & \\\sigma^2 = -\frac{1}{2\eta_2} &\end{array}\right.\tag{8.2.4}$
- 将 $η\eta$ 代入 $A(η)A(\eta )$ 可以得到如下结果：
$A(η)=−η124η2+12log(2π⋅−12η2)=η124η2+12log(−π2η2).(8.2.5)A(\eta )=-\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(2\pi \cdot -\frac{1}{2\eta _{2}})\\ =\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}}).\tag{8.2.5}$

由此就将高斯分布整理成了指数族分布的形式：
$A(η)=η124η2+12log(−π2η2)P(x|\theta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \} \\ h(x)=1;\; \eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix};\; \phi (x)=\begin{pmatrix} x\\ x^{2} \end{pmatrix};\; A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})$

8.3 对数配分函数与充分统计量的关系

问题提出
指数族分布的基本形式：
$P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}=1exp{A(η)}h(x)exp{ηTϕ(x)}.(8.3.1)P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}h(x)exp\left \{\eta ^{T}\phi (x)\right \}.\tag{8.3.1}$
- $η\eta$ ：参数向量parameter， $η∈Rp\eta \in \mathbb{R}^p$ 。
- $A(η)A(\eta)$ ：log partition function (对数配分函数)。
- $ϕ(x)\phi(x)$ ：sufficient statistics magnitude(充分统计量)。
思路：
1. 若将指数族分布看作一个函数： $f(x,η)=h(x)exp⁡(ηTϕ(x)−A(η))f(x,\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))$ 那么对数配分函数 $A(η)A(\eta)$ 与充分统计量 $ϕ(x)\phi(x)$ 没什么关系；
2. 但是将其看作概率密度函数： $P(x∣η)=h(x)exp⁡(ηTϕ(x)−A(η))P(x|\eta) = h(x)\exp(\eta^T\phi(x)-A(\eta))$ ，那么由概率密度公式 $∫xP(x∣η)dx=1可导出一定的关系\color{red}\int_x P(x|\eta) dx= 1可导出一定的关系$ 。
关系导出1
由前面介绍的 $A(η)=η124η2+12log(−π2η2)A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})$ 可知配分函数：
$P(x∣η)exp⁡(A(η))=h(x)exp⁡(ηTϕ(x))∫xP(x∣η)exp⁡(A(η))dx=∫xh(x)exp⁡(ηTϕ(x))dxexp⁡(A(η))=∫xh(x)exp⁡(ηTϕ(x))dx.(8.3.2)P(x|\eta)\exp(A(\eta))=h(x)\exp(\eta^T\phi(x))\\ \int_x P(x|\eta)\exp(A(\eta))dx=\int_x h(x)\exp(\eta^T\phi(x))dx\\ \exp(A(\eta))=\int_x h(x)\exp(\eta^T\phi(x))dx.\tag{8.3.2}$
接着两边求导：
$exp{A(η)}=∫h(x)exp{ηTϕ(x)}dx⇒∂exp{A(η)}∂η=∂(∫h(x)exp{ηTϕ(x)}dx)∂η⇒exp{A(η)}A′(η)=∫h(x)exp{ηTϕ(x)}ϕ(x)dx⇒A′(η)=∫h(x)exp{ηTϕ(x)}ϕ(x)dxexp{A(η)}=∫h(x)exp{ηTϕ(x)−A(η)}⏟P(x∣η)ϕ(x)dx.(8.3.3)exp\left \{A(\eta )\right \}=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x\\ \Rightarrow \frac{\partial exp\left \{A(\eta )\right \}}{\partial \eta }=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x)}{\partial \eta }\\ \Rightarrow exp\left \{A(\eta )\right \}A^{'}(\eta )=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x\\ \Rightarrow A^{'}(\eta )=\frac{\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x}{exp\left \{A(\eta )\right \}}\\ =\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}\phi (x)\mathrm{d}x.\tag{8.3.3}$
$A'(\eta)=\int P(x|\eta )\phi (x)\mathrm{d}x =E_{P(x|\eta )}[\phi (x)]$
因此： $A′(η)=Ex∼p(x∣η)[ϕ(x)].(8.3.4)\color{red}A'(\eta) = \mathbb{E}_{x \sim p(x|\eta)}[\phi(x)].\tag{8.3.4}$
关系导出2
类似地，继续对 $A(η)A(\eta )$ 求二阶导数:
$A′′(η)=∂(∫h(x)exp{ηTϕ(x)−A(η)}ϕ(x)dx)∂η=∫h(x)exp{ηTϕ(x)−A(η)}⏟P(x∣η)(ϕ(x)−A′(η))ϕ(x)dx=∫P(x∣η)(ϕ(x)−EP(x∣η)[ϕ(x)])ϕ(x)dx=∫P(x∣η)ϕ2(x)−EP(x∣η)[ϕ(x)]P(x∣η)ϕ(x)dx=∫P(x∣η)ϕ2(x)dx−EP(x∣η)[ϕ(x)]∫P(x∣η)ϕ(x)dx=EP(x∣η)[ϕ2(x)]−EP(x∣η)2[ϕ(x)]=VarP(x∣η)[ϕ(x)]\begin{array}{ll}A^{''}(\eta )&=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\phi (x)\mathrm{d}x)}{\partial \eta }\\ &=\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}(\phi (x)-A^{'}(\eta ))\phi (x)\mathrm{d}x\\ &=\int P(x|\eta )(\phi (x)-E_{P(x|\eta )}[\phi (x)])\phi (x)\mathrm{d}x\\ &=\int P(x|\eta )\phi ^{2}(x)-E_{P(x|\eta )}[\phi (x)]P(x|\eta )\phi (x)\mathrm{d}x\\ &=\int P(x|\eta )\phi ^{2}(x)\mathrm{d}x-E_{P(x|\eta )}[\phi (x)]\int P(x|\eta )\phi (x)\mathrm{d}x\\ &=E_{P(x|\eta )}[\phi ^{2}(x)]-E_{P(x|\eta )}^{2}[\phi (x)] =Var_{P(x|\eta )}[\phi (x)]\end{array}$
所以 $A′′(η)=VarP(x∣η)[ϕ(x)].(8.3.5)\color{red}A^{''}(\eta )=Var_{P(x|\eta )}[\phi (x)].\tag{8.3.5}$
由于方差总是恒大于等于零的，于是有 $A′′(η)≥0A''(\eta)\geq 0$ 。所以，由此得出 $A(η)A(\eta)$ 是一个凸函数。并且，由 $Ex∼p(x∣η)[ϕ(x)]\mathbb{E}_{x \sim p(x|\eta)}[\phi(x)]$ 和 $Varx∼p(x∣η)[ϕ(x)]Var_{x \sim p(x|\eta)}[\phi(x)]$ 就可以成功的求解得到 $A(η)A(\eta)$ 函数。那么我们做进一步思考，知道了 $E[x]\mathbb{E}[x]$ 和 $E[x2]\mathbb{E}[x^2]$ ，我们就可以得到所有想要的信息。那么：
$E[ϕ(x)]=(E[x]E[x2]).(8.3.6)\color{red}\mathbb{E}[\phi(x)]=\begin{pmatrix}\mathbb{E}[x] \\\mathbb{E}[x^2]\end{pmatrix}.\tag{8.3.6}$

总结： $对数分配函数的一阶导数为充分统计量的均值，对数分配函数的二阶导数为充分统计量的方差。\color{red}对数分配函数的一阶导数为充分统计量的均值，对数分配函数的二阶导数为充分统计量的方差。$

8.4 极大似然估计与充分统计量

上一节的推导都是在无样本条件下进行的，在有样本的情况下我们也可以通过极大似然估计法来获得一些特定的关系，假设有如下数据：
$,xN}D=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}$
使用极大似然估计法求解 $η\eta$ ：
$h(xi)⏟与η无关+ηTϕ(xi)−A(η)]=argmaxη∑i=1N[ηTϕ(xi)−A(η)]\begin{array}{ll}\eta _{MLE}&=\underset{\eta }{argmax}\; logP(D|\eta )\\ &=\underset{\eta }{argmax}\; log\prod_{i=1}^{N}P(x_{i}|\eta )\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}logP(x_{i}|\eta )\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}log[h(x_{i})exp\left \{\eta ^{T}\phi (x_{i})-A(\eta )\right \}]\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}[\underset{与\eta 无关}{\underbrace{log\; h(x_{i})}}+\eta ^{T}\phi (x_{i})-A(\eta )]\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]\end{array}$
令 $∂∑i=1NηTϕ(x)−NA(η)∂η=0{\partial\sum_{i=1}^{N}\eta^T\phi(x)-NA(\eta) \over \partial \eta}=0$ ，则有：
$∂∑i=1N[ηTϕ(xi)−A(η)]∂η=∑i=1N∂[ηTϕ(xi)−A(η)]∂η=∑i=1N[ϕ(xi)−A′(η)]=∑i=1Nϕ(xi)−NA′(η)=0⇒A′(ηMLE)=1N∑i=1Nϕ(xi).(8.4.1)\begin{array}{ll}\frac{\partial \sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta } &=\sum_{i=1}^{N}\frac{\partial [\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta }\\ &=\sum_{i=1}^{N}[\phi (x_{i})-A^{'}(\eta )] =\sum_{i=1}^{N}\phi (x_{i})-NA^{'}(\eta ) =0\\ &\color{red}\Rightarrow A^{'}(\eta _{MLE})=\frac{1}{N}\sum_{i=1}^{N}\phi (x_{i})\end{array}.\tag{8.4.1}$
$ηMLE=A(−1)′(η)\eta_{MLE}=A^{(-1)} {'}(\eta)$
其中 $A^{(-1)} {'}$ 表示 $A^{'}$ 的反函数。
总结：

$ηMLE\eta _{MLE}$ 就可以通过求 $A′(η)A^{'}(\eta )$ 的反函数求出来。这说明 $ϕ(xi)\phi (x_{i})$ 是充分统计量，因为只需要记录 $1N∑i=1Nϕ(xi)\frac{1} {N}\sum_{i=1}^{N}\phi (x_{i})$ 这一个值就可以求出 $η\eta$ ，进而通过 $η\eta$ 求出所有的参数。
可以直接通过 $ϕ(x)\phi(x)$ 求出，因此 $ϕ(x)\phi(x)$ 称为充分统计量。

8.5 最大熵角度

8.5.1 概念

信息量
设一个事件发生的概率为 $p$ ，那么他的信息量是 $log⁡1p=−log⁡p\log {1\over p}=-\log p$ ，其信息量与概率成反比。信息量：
$信息量：−log⁡p.(8.5.1)\color{red}信息量：-\log p.\tag{8.5.1}$
熵

熵是随机变量不确定性的度量， $不确定性越大，熵值就越大\color{blue}不确定性越大，熵值就越大$ ；若随机变量退化成定值，熵为0。均匀分布是“最不确定”的分布。
信息量的期望便是熵：
$p(x)(离散).(8.5.2)\color{red}H[P]=E[-log\; p(x)]=\int -p(x)log\; p(x)\mathrm{d}x(连续)\\ H[P]=E[-log\; p(x)]=-\sum_{i=1}^{N}p(x)log\; p(x)(离散).\tag{8.5.2}$
对于熵有很多种，比如分类问题常用的交叉熵，我们本节只讨论最大熵。最大熵就是指事件的等可能，当我们对事件完全不了解时，一切都是随机的，那么就是等可能的。
$最大熵⇔等可能最大熵\Leftrightarrow 等可能$

8.5.2 离散情况下的最大熵

假设x是离散的，其分布如下：

x 1 2 … k

P $p_1$ $p_2$ … $p_k$

则最大熵可以表示为： $H[p]=−∑xp(x)log⁡p(x)H[p]=-\sum_{x}p(x)\log p(x)$
优化问题
通过求解以下约束优化问题可以求得使得离散情况下熵最大的分布：
$∑i=1kpi=1(8.5.3)\left\{\begin{matrix} max\; H[P]=max-\sum_{i=1}^{k}p_{i}log\; p_{i}\\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.\Leftrightarrow \left\{\begin{matrix} min\sum_{i=1}^{k}p_{i}log\; p_{i}\\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.\tag{8.5.3}$
实际上也就是求 $pi^=arg min⁡−H(p(x))\hat{p_i} = \mathop{\argmin} -H(p(x))$ ，其中 $p=(p1p2⋯pk)Tp=\begin{pmatrix} p_1 & p_2 & \cdots & p_k \end{pmatrix}^T$ 。我们使用拉格朗日乘子法来求带约束的方程的极值。定义损失函数为：
$pi+λ(1−∑i=1kpi).(8.5.4)L(P,\lambda )=\sum_{i=1}^{k}p_{i}log\; p_{i}+\lambda (1-\sum_{i=1}^{k}p_{i}).\tag{8.5.4}$
求解优化问题
对 $pi^\hat{p_i}$ 的求解：
$pi+1−λ=0⇒p^i=exp(λ−1).(8.5.5)\frac{\partial L}{\partial p_{i}}=log\; p_{i}+p_{i}\frac{1}{p_{i}}-\lambda =log\; p_{i}+1-\lambda =0\\ \Rightarrow \hat{p}_{i}=exp(\lambda -1).\tag{8.5.5}$
又因为 $λ\lambda$ 是一个常数，所以 $p^i\hat{p}_i$ 是一个常数，那么我们可以轻易每个 $p^i\hat{p}_{i}$ 都等于 $exp(λ−1)exp(\lambda -1)$ ，由 $∑i=1kpi=1\sum_{i=1}^{k}p_{i}=1$ 可以得到：
$p^1=p^2=⋯=p^k=1k.(8.5.6)\hat{p}_{1}=\hat{p}_{2}=\cdots =\hat{p}_{k}=\frac{1}{k}.\tag{8.5.6}$
很显然 $p (x)$ 是一个均匀分布，那么 $关于离散变量的无信息先验的最大熵分布\color{blue}关于离散变量的无信息先验的最大熵分布$ 就是 $均匀分布\color{red}均匀分布$ 。

也可以这样表述： $在没有任何已知情况下，等可能就是不确定性最高的时候，而不确定性最大则熵最大。\color{red}在没有任何已知情况下，等可能就是不确定性最高的时候，而不确定性最大则熵最大。$

x	1	2	…	k
P	$p_1$	$p_2$	…	$p_k$

8.5.3 指数族分布的最大熵原理

在机器学习中，已知事实就是给定的数据，那么如何将数据转换为约束呢？

定义相关约束
- 我们已经有了一部分数据：
  $,xN}Data=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}$
- 根据数据我们可以定义其经验分布：
  $p^(x=n)=p^(n)=count(n)N.(8.5.7)\hat{p}(x=n)=\hat{p}(n)=\frac{count(n)}{N}.\tag{8.5.7}$
  
  这里 $p^(x)\hat{p}(x)$ 是指取值为 $x$ 的数据所占的比例，即频率。通过该分布可以获得数据的一些属性，比如 $Ep^[x],Varp^[x],⋯E_{\hat{p}}[x],Var_{\hat{p}}[x],\cdots$ 。
- 假设 $f (x)$ 是任意关于 $x$ 的函数向量，令 $Ep^[f(x)]=Δ(已知)\color{red}E_{\hat{p}}[f(x)]=\Delta(已知)$ ，则满足：
  $Δ=(Δ1Δ2⋮ΔQ).(8.5.8)f(x)=\begin{pmatrix} f_{1}(x)\\ f_{2}(x)\\ \vdots \\ f_{Q}(x) \end{pmatrix}\; \; \Delta =\begin{pmatrix} \Delta _{1}\\ \Delta _{2}\\ \vdots \\ \Delta _{Q} \end{pmatrix}.\tag{8.5.8}$
- 因此对于 $p (x)$ ，其熵为 $\sum_x p(x)\log p(x)$ 。其约束为：
  $Ep^[f(x)]=Δ.(8.5.9)\color{blue}\begin{cases} \min\displaystyle\sum_xp(x)\log p(x)\\ s.t.\ \ \displaystyle\sum_xp(x)=1\\ \ \ \ \ \ \ \ \ \ \ E_{\hat p}[f(x)]=\Delta \end{cases}.\tag{8.5.9}$
求解约束问题
- 使用拉格朗日乘子法进行求解，首先定义拉格朗日函数：
  $p(x)+λ0(1−∑xp(x))+λT(Δ−Ep[f(x)]).(8.5.10)L(P,\lambda _{0},\lambda )=\sum _{x}p(x)log\; p(x)+\lambda _{0}(1-\sum _{x}p(x))+\lambda ^{T}(\Delta -E_{p}[f(x)]).\tag{8.5.10}$
  其中 $Ep[f(x)]=∑xp(x)f(x)E_p[f(x)]=\sum_x p(x)f(x)$ 。则：
  $L(p,λ0,λ)=∑i=1Np(xi)log⁡p(xi)+λ0(1−∑xp)+λT(Δ−∑xp(x)f(x)).(8.5.11)\color{blue}\mathcal{L}(p,\lambda_0, \lambda) = \sum_{i=1}^N p(x_i)\log p(x_i) + \lambda_0(1-\sum_{x} p)+\lambda^T(\Delta - \sum_x p(x)f(x)).\tag{8.5.11}$
- 接着对 $p (x)$ 进行求导，这里指的是对每个 $p(x_{i})$ 进行求导：
  $∂L∂p(x)=0{\partial L \over \partial p(x)}=0$
  $∑x(log⁡p(x)+p(x)1p(x))−λ0∑x1−λT∑xf(x)=0∑x(log⁡p(x)+1−λ0−λTf(x))=0\begin{array}{c} \sum_x(\log p(x)+p(x){1\over p(x)})-\lambda_0\sum_x 1-\lambda^T\sum_x f(x)&=0\\ \sum_x(\log p(x)+1-\lambda_0-\lambda^Tf(x))&=0 \end{array}$
  此处求和结果为 $0$ ，但实际上在求导时，总是针对某个 $x_i$ ，这样的话，其余 $xj(i≠j)x_j(i\neq j)$ 都为 $0$ ，所以此处可以化为求和内每一项都为 $0$ ，即：
  $log⁡p(x)+1−λ0−λTf(x)=0log⁡p(x)=λ0+λTf(x)−1p(x)=exp⁡{λ0+λTf(x)−1}p(x)=exp⁡{λT⏟ηTf(x)⏟ϕ(x)−(1−λ0)⏟A(η)}\begin{array}{r} \log p(x)+1-\lambda_0-\lambda^Tf(x)&=0\\ \log p(x)&=\lambda_0+\lambda^Tf(x)-1\\ p(x)&=\exp\{ \lambda_0+\lambda^Tf(x)-1 \}\\ p(x)&=\exp\{ \color{red}{\underbrace{\lambda^T}_{\eta^T}} \color{blue}{\underbrace{f(x)}_{\phi(x)}}-\color{green}{\underbrace{(1-\lambda_0)}_{A(\eta)}} \} \end{array}$
  显示 $p (x)$ 是一个指数族分布，因此对于连续变量 $x$ ，其在满足既定事实的条件下对应的最大熵的分布是一个指数族分布。
  
  连续变量最大嫡对应于高斯分布。

8.6 总结

指数族分布的基本形式：
$P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}=1exp{A(η)}h(x)exp{ηTϕ(x)}.(8.6.1)P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}h(x)exp\left \{\eta ^{T}\phi (x)\right \}.\tag{8.6.1}$
- $η\eta$ ：参数向量parameter， $η∈Rp\eta \in \mathbb{R}^p$ 。
- $A(η)A(\eta)$ ：log partition function (对数配分函数)。
- $ϕ(x)\phi(x)$ ：sufficient statistics magnitude(充分统计量)。
高斯函数指数族分布的形式：
$P(x∣θ)=12πσexp⁡{−(x−μ)22σ2}=exp⁡{(μσ2−12σ2)⏟ηT(xx2)⏟ϕ(x)−(μ22σ2+12log⁡(2πσ2))⏟A(η)}.(8.6.2)P(x|\theta)={1\over\sqrt{2\pi}\sigma}\exp\{ -{(x-\mu)^2\over 2\sigma^2}\}\\ =\exp\{ \color{red}{\underbrace{\begin{pmatrix}{\mu\over \sigma^2} &-{1\over 2\sigma^2}\end{pmatrix} }_{\eta^T} } \color{blue}{\underbrace{\begin{pmatrix}x \\ x^2\end{pmatrix}}_{\phi(x)}}-\color{green}{\underbrace{ ({\mu^2 \over 2\sigma^2}+{1\over2}\log(2\pi\sigma^2)) }_{A(\eta)}}\} .\tag{8.6.2}$
其中 $A(η)=η124η2+12log(−π2η2).(8.6.3)h(x)=1;\; \eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix};\; \phi (x)=\begin{pmatrix} x\\ x^{2} \end{pmatrix};\; A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}}).\tag{8.6.3}$
对数配分函数与充分统计量的关系
$A′(η)=Ex∼p(x∣η)[ϕ(x)].(8.6.4)\color{red}A'(\eta) = \mathbb{E}_{x \sim p(x|\eta)}[\phi(x)].\tag{8.6.4}$
$A′′(η)=VarP(x∣η)[ϕ(x)].(8.6.5)\color{red}A^{''}(\eta )=Var_{P(x|\eta )}[\phi (x)].\tag{8.6.5}$
信息量
设一个事件发生的概率为 $p$ ，那么他的信息量是 $log⁡1p=−log⁡p\log {1\over p}=-\log p$ ，其信息量与概率成反比。信息量：
$信息量：−log⁡p.(8.6.6)\color{red}信息量：-\log p.\tag{8.6.6}$
熵

熵是随机变量不确定性的度量， $不确定性越大，熵值就越大\color{blue}不确定性越大，熵值就越大$ ；若随机变量退化成定值，熵为0。均匀分布是“最不确定”的分布。
信息量的期望便是熵：
$p(x)(离散).(8.6.7)\color{red}H[P]=E[-log\; p(x)]=\int -p(x)log\; p(x)\mathrm{d}x(连续)\\ H[P]=E[-log\; p(x)]=-\sum_{i=1}^{N}p(x)log\; p(x)(离散).\tag{8.6.7}$

指数族分布的最大熵原理
- 我们已经有了一部分数据：
  $,xN}Data=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}$
- 根据数据我们可以定义其经验分布：
  $p^(x=n)=p^(n)=count(n)N.(8.6.8)\hat{p}(x=n)=\hat{p}(n)=\frac{count(n)}{N}.\tag{8.6.8}$
  
  这里 $p^(x)\hat{p}(x)$ 是指取值为 $x$ 的数据所占的比例，即频率。通过该分布可以获得数据的一些属性，比如 $Ep^[x],Varp^[x],⋯E_{\hat{p}}[x],Var_{\hat{p}}[x],\cdots$ 。
- 假设 $f (x)$ 是任意关于 $x$ 的函数向量，令 $Ep^[f(x)]=Δ(已知)\color{red}E_{\hat{p}}[f(x)]=\Delta(已知)$ ，则满足：
  $Δ=(Δ1Δ2⋮ΔQ).(8.6.9)f(x)=\begin{pmatrix} f_{1}(x)\\ f_{2}(x)\\ \vdots \\ f_{Q}(x) \end{pmatrix}\; \; \Delta =\begin{pmatrix} \Delta _{1}\\ \Delta _{2}\\ \vdots \\ \Delta _{Q} \end{pmatrix}.\tag{8.6.9}$
- 因此对于 $p (x)$ ，其熵为 $\sum_x p(x)\log p(x)$ 。其约束为：
  $Ep^[f(x)]=Δ.(8.6.10)\color{blue}\begin{cases} \min\displaystyle\sum_xp(x)\log p(x)\\ s.t.\ \ \displaystyle\sum_xp(x)=1\\ \ \ \ \ \ \ \ \ \ \ E_{\hat p}[f(x)]=\Delta \end{cases}.\tag{8.6.10}$
- 通过拉格朗日乘子法得：
  $p(x)=exp⁡{λT⏟ηTf(x)⏟ϕ(x)−(1−λ0)⏟A(η)}.(8.6.11)p(x)=\exp\{ \color{red}{\underbrace{\lambda^T}_{\eta^T}} \color{blue}{\underbrace{f(x)}_{\phi(x)}}-\color{green}{\underbrace{(1-\lambda_0)}_{A(\eta)}}\}.\tag{8.6.11}$