机器学习-白板推导系列(八)-指数族分布
8. 指数族分布8.1 背景8.1.1 指数族分布的基本形式
8. 指数族分布
8.1 背景
本节主要对指数族分布的概念和性质的一个小小的总结。指数族分布是一个广泛存在于机器学习研究中的分布。包括:Guassian分布、Bernoulli分布(类别分布)、二项分布(多项式分布)、泊松分布、Beta分布、Dirichlet分布、Gamma分布和Gibbs分布等。
8.1.1 指数族分布的基本形式
-
基本形式
指数族分布的基本形式可以表示为:
P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}.(8.1.1) \color{red}P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}.\tag{8.1.1}P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}.(8.1.1)
其中:- η\color{blue}\etaη:参数向量,η∈Rp\eta \in \mathbb{R}^pη∈Rp。
- ϕ(x)\color{blue}\phi (x)ϕ(x):Sufficient statistic(充分统计量);
- A(η)\color{blue}A(\eta)A(η):log partition function (log 配分函数)。
- h(x)\color{blue}h(x)h(x):这个函数只和xxx有关系,所以并不是很重要。
η\etaη和h(x)h(x)h(x)的理解比较简单,但是log partition function的理解难度比较大。所以,在这里对此函数做出一定的解释。
-
配分函数
通常如果我们得到一个可以表达分布的函数P^(x∣θ)\hat{P}(x|\theta )P^(x∣θ)但是其积分不为111,需要除以一个归一化因子zzz来将其归一,这个归一化因子zzz就是配分函数,zzz取值为P^(x∣θ)\hat{P}(x|\theta )P^(x∣θ)的积分。- P(x∣θ)=1zP^(x∣θ)P(x|\theta )=\frac{1}{z}\hat{P}(x|\theta )P(x∣θ)=z1P^(x∣θ),则:
∫P(x∣θ)dx=∫1zP^(x∣θ)dx⇒1=1z∫P^(x∣θ)dx⇒z=∫P^(x∣θ)dx\int P(x|\theta )\mathrm{d}x=\int \frac{1}{z}\hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow 1=\frac{1}{z}\int \hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow z=\int \hat{P}(x|\theta )\mathrm{d}x∫P(x∣θ)dx=∫z1P^(x∣θ)dx⇒1=z1∫P^(x∣θ)dx⇒z=∫P^(x∣θ)dx - 指数族函数中有关于A(η)A(\eta)A(η)的配分函数的推导如下:
p(x∣η)=h(x)exp{ηTϕ(x)}exp{−A(η)}=1exp{A(η)}h(x)exp{ηTϕ(x)} p(x|\eta) = h(x)exp\{ \eta^T\phi(x)\}exp\{-A(\eta)\} \\ = \frac{1}{exp\{A(\eta)\}} h(x)exp\{ \eta^T\phi(x)\}p(x∣η)=h(x)exp{ηTϕ(x)}exp{−A(η)}=exp{A(η)}1h(x)exp{ηTϕ(x)}
∫p(x∣η)dx=∫1exp{A(η)}h(x)exp{ηTϕ(x)}dx=1exp{A(η)}=∫h(x)exp{ηTϕ(x)}dxA(η)=log∫h(x)exp{ηTϕ(x)}dx\int p(x|\eta) dx = \int \frac{1}{exp\{A(\eta)\}} h(x)exp\{ \eta^T\phi(x)\} dx = 1 \\ exp\{A(\eta)\} = \int h(x)exp\{ \eta^T\phi(x)\} dx \\ A(\eta) = \log \int h(x)exp\{ \eta^T\phi(x)\} dx∫p(x∣η)dx=∫exp{A(η)}1h(x)exp{ηTϕ(x)}dx=1exp{A(η)}=∫h(x)exp{ηTϕ(x)}dxA(η)=log∫h(x)exp{ηTϕ(x)}dx
因此exp{A(η)}exp\left \{A(\eta )\right \}exp{A(η)}就是配分函数,A(η)A(\eta )A(η)就是log配分函数\color{blue}log配分函数log配分函数。
- P(x∣θ)=1zP^(x∣θ)P(x|\theta )=\frac{1}{z}\hat{P}(x|\theta )P(x∣θ)=z1P^(x∣θ),则:
8.1.2 指数族分布的相关知识
指数族分布的相关知识,可以用下面这张图表来进行概况:
- 充分统计量
- 充分统计量是一个有关于样本的函数,统计量可以完整的表示出数据集整体的特征\color{red}统计量可以完整的表示出数据集整体的特征统计量可以完整的表示出数据集整体的特征。从某种意义上说,我们可以丢弃样本数据集。
- 以Guassian Distribution进行举例,数据集Data set为:{x1,x2,x3,⋯ ,xN}\{x_1,x_2,x_3,\cdots ,x_N\}{x1,x2,x3,⋯,xN},我们只需要一组充分统计量:
φ(x)=(∑i=1Nxi∑i=1Nxi2).(8.1.2)\varphi(x) = \begin{pmatrix} \sum_{i=1}^Nx_i \\ \sum_{i=1}^Nx_i^2 \end{pmatrix}.\tag{8.1.2}φ(x)=(∑i=1Nxi∑i=1Nxi2).(8.1.2)
就可以反映出Guassian的所有特征θ=(μ,Σ)\theta=(\mu, \Sigma)θ=(μ,Σ),因为通过上述统计量可以计算样本的均值和方差进而得到其明确的分布。 - 充分统计量在online learning\color{blue}online\;learningonlinelearning中的使用有很大的作用。这样可以不记录那么多的数据集,只使用少量的数据就可以估计得到数据集整体的特征,可以用来简化计算。
- 共轭
- 在贝叶斯公式:
P(z∣x)=P(x∣z)P(z)∫zP(x∣z)P(z)dzP(z|x)=\frac{P(x|z)P(z)} {\int _{z}P(x|z)P(z)\mathrm{d}z}P(z∣x)=∫zP(x∣z)P(z)dzP(x∣z)P(z)
其中,p(z∣x)p(z|x)p(z∣x)为后验概率分布,p(x∣z)p(x|z)p(x∣z)为似然函数,p(z)p(z)p(z)为先验分布。在求解∫zp(x∣z)p(z)dz\int_{z}p(x|z)p(z)dz∫zp(x∣z)p(z)dz时,计算难度非常大。很多时候,根本算不出来。有时候,就算求得了p(z∣x)p(z|x)p(z∣x),也有可能因为p(z∣x)p(z|x)p(z∣x)的形式过于复杂,导致Ep(z∣x)[f(x)]\mathbb{E}_{p(z|x)}[f(x)]Ep(z∣x)[f(x)]根本算不出来。所以,为了解决这个问题,科研人员们想了很多的办法。就有了近似推断的方法,比如,变分和采样\color{red}变分和采样变分和采样。
- 共轭的概念是指在给定一个特殊的似然(P(x∣z))\color{blue}似然(P(x|z))似然(P(x∣z))的情况下,后验(P(z∣x))\color{blue}后验(P(z|x))后验(P(z∣x))与先验(P(z))\color{blue}先验(P(z))先验(P(z))会有一个相同的分布形式,这也就解决了上述积分困难的问题,避免了就分母上的积分项常数,大大简化计算,举例:
p(z∣x)∝p(x∣z)p(z),(8.1.3)\color{red}p(z|x)\varpropto p(x|z)p(z),\tag{8.1.3}p(z∣x)∝p(x∣z)p(z),(8.1.3)
如果,p(x∣z)p(x|z)p(x∣z)为二项分布,p(z)p(z)p(z)为Beta分布,那么后验分布p(z∣x)p(z|x)p(z∣x)也为Beta分布。 - 变分\color{red}变分变分的方法,是用简单的分布来拟合一个很难计算的分布,从而计算得出p(z∣x)p(z|x)p(z∣x)的近似分布形式。而采样\color{red}采样采样的方法,比如蒙特卡罗采样,隐马尔可夫、蒙特卡罗采样(MCMC)等,是直接来求Ep(z∣x)[f(x)]\mathbb{E}_{p(z|x)}[f(x)]Ep(z∣x)[f(x)],这样直接跳过了中间那一堆的过程,在强化学习中经常使用。
- 在贝叶斯公式:
- 最大熵原理
- 最大熵主要用于无信息先验\color{red}最大熵主要用于无信息先验最大熵主要用于无信息先验。当给定一个限制条件的情况下,对于未知部分,我们假设它们等可能发生,但我们无法定量分析。而熵可以进行定量分析,求解最大熵,熵越大则随机性越强。
无信息先验:
在贝叶斯估计中,我们往往需要给先验一个参数,有如下方法:- 共轭\color{blue}共轭共轭:为了计算方便
- 最大熵思想\color{blue}最大熵思想最大熵思想:从最大熵的角度给予先验的参数(无信息先验)
- Jerrif\color{blue}JerrifJerrif
- 广义线性模型
指数族分布在此模型中占据重要地位。广义线性模型主要是为了解决回归和分类问题,在线性模型的基础上进行扩展,有如下:
{线性组合wTxlink function→(激活函数)−1指数族分布:y∣x∼指数族分布{线性回归:y∣x∼N(μ,Σ)分类:y∣x∼Bernoulli泊松回归:y∣x∼Possion(8.1.4)\color{red}\left\{\begin{matrix} 线性组合w^{T}x\\ link\; function\rightarrow (激活函数)^{-1}\\ 指数族分布:y|x\sim 指数族分布\left\{\begin{matrix} 线性回归:y|x\sim N(\mu ,\Sigma )\\ 分类:y|x\sim Bernoulli\\ 泊松回归:y|x\sim Possion \end{matrix}\right. \end{matrix}\right.\tag{8.1.4}⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧线性组合wTxlinkfunction→(激活函数)−1指数族分布:y∣x∼指数族分布⎩⎨⎧线性回归:y∣x∼N(μ,Σ)分类:y∣x∼Bernoulli泊松回归:y∣x∼Possion(8.1.4) - 概率图模型
包括无向图等,有玻尔兹曼滤波器等。 - 变分推断
变分推断在指数族分布占据重要地位。若其中的分布满足指数族分布,则会使变分推断大大简化。
8.2 高斯分布的指数族形式
本节的主要是将高斯函数的形式转换为指数族分布的通用表达形式。
8.2.1 概述
- 指数族分部形式
上一节给出了指数族分布的统一表达形式:
p(x∣y)=h(x)exp{ηTϕ(x)−A(η)}.(8.2.1)\color{red}p(x|y)=h(x)exp\left\{ \eta^T\phi(x)-A(\eta) \right\}.\tag{8.2.1}p(x∣y)=h(x)exp{ηTϕ(x)−A(η)}.(8.2.1)- η\etaη:参数向量parameter,η∈Rp\eta \in \mathbb{R}^pη∈Rp。
- A(η)A(\eta)A(η):log partition function (对数配分函数)。
- ϕ(x)\phi(x)ϕ(x):sufficient statistics magnitude(充分统计量)。
- 高斯分布的概率密度函数
高斯分布的概率密度函数可表示为:
p(x∣μ,σ2)=12πσexp{−(x−μ)2σ2}.(8.2.2)\color{red}p(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}exp\left\{ -\frac{(x-\mu)^2}{\sigma^2} \right\}.\tag{8.2.2}p(x∣μ,σ2)=2πσ1exp{−σ2(x−μ)2}.(8.2.2)
本节将高斯分布转换为指数族分布的形式(θ=(μ,σ2)\theta =(\mu, \sigma^2)θ=(μ,σ2)).
8.2.2 转换过程
对公式(8.2.2)进行转换:
P(x∣θ)=12πσexp{−(x−μ)22σ2}=12πσ2exp{−12σ2(x−μ)2}=exp(log(2πσ2)−12)exp{−12σ2(x2−2μx+μ2)}=exp{−12σ2(x2−2μx)−μ22σ2−12log(2πσ2)}=exp{(−12σ2μσ2)(x2x)−(μ22σ2+12log(2πσ2))}=exp{(μσ2−12σ2)⏟ηT(xx2)⏟ϕ(x)−(μ22σ2+12log(2πσ2))⏟A(η)}.(8.2.3)\begin{array}{ll}P(x|\theta)&={1\over\sqrt{2\pi}\sigma}\exp\{ -{(x-\mu)^2\over 2\sigma^2}\} ={1\over\sqrt{2\pi \sigma^2}}\exp\{ -{1\over 2\sigma^2} (x-\mu)^2\}\\ &=\exp(\log(2\pi \sigma^2)^{-{1\over 2}})\exp\{ -{1\over 2\sigma^2} (x^2-2\mu x+\mu^2)\}\\ &=\exp\{-{1\over 2\sigma^2}(x^2-2\mu x)-{\mu^2 \over 2\sigma^2}-{1\over2}\log(2\pi\sigma^2)\}\\ &=\exp\{ \begin{pmatrix}-{1\over 2\sigma^2}&{\mu\over \sigma^2} \end{pmatrix} \begin{pmatrix}x^2 \\ x\end{pmatrix}-({\mu^2 \over 2\sigma^2}+{1\over2}\log(2\pi\sigma^2))\}\\ &=\exp\{ \color{red}{\underbrace{\begin{pmatrix}{\mu\over \sigma^2} &-{1\over 2\sigma^2}\end{pmatrix} }_{\eta^T} } \color{blue}{\underbrace{\begin{pmatrix}x \\ x^2\end{pmatrix}}_{\phi(x)}}-\color{green}{\underbrace{ ({\mu^2 \over 2\sigma^2}+{1\over2}\log(2\pi\sigma^2)) }_{A(\eta)}}\}\end{array} .\tag{8.2.3}P(x∣θ)=2πσ1exp{−2σ2(x−μ)2}=2πσ21exp{−2σ21(x−μ)2}=exp(log(2πσ2)−21)exp{−2σ21(x2−2μx+μ2)}=exp{−2σ21(x2−2μx)−2σ2μ2−21log(2πσ2)}=exp{(−2σ21σ2μ)(x2x)−(2σ2μ2+21log(2πσ2))}=exp{ηT
(σ2μ−2σ21)ϕ(x)
(xx2)−A(η)
(2σ2μ2+21log(2πσ2))}.(8.2.3)
可得:
- ϕ(x)=(xx2)\phi(x)= \begin{pmatrix} x \\ x^2 \end{pmatrix}ϕ(x)=(xx2)
- η=(η1η2)=(μσ2−12σ2)⟹{η1=μσ2η2=−12σ2⟹{μ=−η12η2σ2=−12η2(8.2.4)\eta=\begin{pmatrix}\eta_1 \\\eta_2\end{pmatrix} =\begin{pmatrix}\frac{\mu}{\sigma^2} \\-\frac{1}{2\sigma^2} \end{pmatrix} \Longrightarrow \left\{ \begin{array}{ll} \eta_1 = \frac{\mu}{\sigma^2} & \\ \eta_2 = -\frac{1}{2\sigma^2} &\end{array}\right.\Longrightarrow\left\{\begin{array}{ll}\mu = -\frac{\eta_1}{2\eta_2} & \\\sigma^2 = -\frac{1}{2\eta_2} &\end{array}\right.\tag{8.2.4}η=(η1η2)=(σ2μ−2σ21)⟹{η1=σ2μη2=−2σ21⟹{μ=−2η2η1σ2=−2η21(8.2.4)
- 将η\etaη代入A(η)A(\eta )A(η)可以得到如下结果:
A(η)=−η124η2+12log(2π⋅−12η2)=η124η2+12log(−π2η2).(8.2.5)A(\eta )=-\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(2\pi \cdot -\frac{1}{2\eta _{2}})\\ =\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}}).\tag{8.2.5}A(η)=−4η2η12+21log(2π⋅−2η21)=4η2η12+21log(−2η2π).(8.2.5)
由此就将高斯分布整理成了指数族分布的形式:
P(x∣θ)=h(x)exp{ηTϕ(x)−A(η)}h(x)=1; η=(η1η2)=(μσ2−12σ2); ϕ(x)=(xx2); A(η)=η124η2+12log(−π2η2)P(x|\theta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \} \\ h(x)=1;\; \eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix};\; \phi (x)=\begin{pmatrix} x\\ x^{2} \end{pmatrix};\; A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})P(x∣θ)=h(x)exp{ηTϕ(x)−A(η)}h(x)=1;η=(η1η2)=(σ2μ−2σ21);ϕ(x)=(xx2);A(η)=4η2η12+21log(−2η2π)
8.3 对数配分函数与充分统计量的关系
- 问题提出
指数族分布的基本形式:
P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}=1exp{A(η)}h(x)exp{ηTϕ(x)}.(8.3.1)P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}h(x)exp\left \{\eta ^{T}\phi (x)\right \}.\tag{8.3.1}P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}=exp{A(η)}1h(x)exp{ηTϕ(x)}.(8.3.1)- η\etaη:参数向量parameter,η∈Rp\eta \in \mathbb{R}^pη∈Rp。
- A(η)A(\eta)A(η):log partition function (对数配分函数)。
- ϕ(x)\phi(x)ϕ(x):sufficient statistics magnitude(充分统计量)。
思路:
- 若将指数族分布看作一个函数:f(x,η)=h(x)exp(ηTϕ(x)−A(η))f(x,\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))f(x,η)=h(x)exp(ηTϕ(x)−A(η))那么对数配分函数A(η)A(\eta)A(η)与充分统计量 ϕ(x)\phi(x)ϕ(x)没什么关系;
- 但是将其看作概率密度函数:P(x∣η)=h(x)exp(ηTϕ(x)−A(η))P(x|\eta) = h(x)\exp(\eta^T\phi(x)-A(\eta))P(x∣η)=h(x)exp(ηTϕ(x)−A(η)),那么由概率密度公式∫xP(x∣η)dx=1可导出一定的关系\color{red}\int_x P(x|\eta) dx= 1可导出一定的关系∫xP(x∣η)dx=1可导出一定的关系。
- 关系导出1
由前面介绍的A(η)=η124η2+12log(−π2η2)A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})A(η)=4η2η12+21log(−2η2π)可知配分函数:
P(x∣η)exp(A(η))=h(x)exp(ηTϕ(x))∫xP(x∣η)exp(A(η))dx=∫xh(x)exp(ηTϕ(x))dxexp(A(η))=∫xh(x)exp(ηTϕ(x))dx.(8.3.2)P(x|\eta)\exp(A(\eta))=h(x)\exp(\eta^T\phi(x))\\ \int_x P(x|\eta)\exp(A(\eta))dx=\int_x h(x)\exp(\eta^T\phi(x))dx\\ \exp(A(\eta))=\int_x h(x)\exp(\eta^T\phi(x))dx.\tag{8.3.2}P(x∣η)exp(A(η))=h(x)exp(ηTϕ(x))∫xP(x∣η)exp(A(η))dx=∫xh(x)exp(ηTϕ(x))dxexp(A(η))=∫xh(x)exp(ηTϕ(x))dx.(8.3.2)
接着两边求导:
exp{A(η)}=∫h(x)exp{ηTϕ(x)}dx⇒∂exp{A(η)}∂η=∂(∫h(x)exp{ηTϕ(x)}dx)∂η⇒exp{A(η)}A′(η)=∫h(x)exp{ηTϕ(x)}ϕ(x)dx⇒A′(η)=∫h(x)exp{ηTϕ(x)}ϕ(x)dxexp{A(η)}=∫h(x)exp{ηTϕ(x)−A(η)}⏟P(x∣η)ϕ(x)dx.(8.3.3)exp\left \{A(\eta )\right \}=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x\\ \Rightarrow \frac{\partial exp\left \{A(\eta )\right \}}{\partial \eta }=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x)}{\partial \eta }\\ \Rightarrow exp\left \{A(\eta )\right \}A^{'}(\eta )=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x\\ \Rightarrow A^{'}(\eta )=\frac{\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x}{exp\left \{A(\eta )\right \}}\\ =\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}\phi (x)\mathrm{d}x.\tag{8.3.3}exp{A(η)}=∫h(x)exp{ηTϕ(x)}dx⇒∂η∂exp{A(η)}=∂η∂(∫h(x)exp{ηTϕ(x)}dx)⇒exp{A(η)}A′(η)=∫h(x)exp{ηTϕ(x)}ϕ(x)dx⇒A′(η)=exp{A(η)}∫h(x)exp{ηTϕ(x)}ϕ(x)dx=∫P(x∣η) h(x)exp{ηTϕ(x)−A(η)}ϕ(x)dx.(8.3.3)
A′(η)=∫P(x∣η)ϕ(x)dx=EP(x∣η)[ϕ(x)] A'(\eta)=\int P(x|\eta )\phi (x)\mathrm{d}x =E_{P(x|\eta )}[\phi (x)]A′(η)=∫P(x∣η)ϕ(x)dx=EP(x∣η)[ϕ(x)]
因此:A′(η)=Ex∼p(x∣η)[ϕ(x)].(8.3.4)\color{red}A'(\eta) = \mathbb{E}_{x \sim p(x|\eta)}[\phi(x)].\tag{8.3.4}A′(η)=Ex∼p(x∣η)[ϕ(x)].(8.3.4) - 关系导出2
类似地,继续对A(η)A(\eta )A(η)求二阶导数:
A′′(η)=∂(∫h(x)exp{ηTϕ(x)−A(η)}ϕ(x)dx)∂η=∫h(x)exp{ηTϕ(x)−A(η)}⏟P(x∣η)(ϕ(x)−A′(η))ϕ(x)dx=∫P(x∣η)(ϕ(x)−EP(x∣η)[ϕ(x)])ϕ(x)dx=∫P(x∣η)ϕ2(x)−EP(x∣η)[ϕ(x)]P(x∣η)ϕ(x)dx=∫P(x∣η)ϕ2(x)dx−EP(x∣η)[ϕ(x)]∫P(x∣η)ϕ(x)dx=EP(x∣η)[ϕ2(x)]−EP(x∣η)2[ϕ(x)]=VarP(x∣η)[ϕ(x)]\begin{array}{ll}A^{''}(\eta )&=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\phi (x)\mathrm{d}x)}{\partial \eta }\\ &=\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}(\phi (x)-A^{'}(\eta ))\phi (x)\mathrm{d}x\\ &=\int P(x|\eta )(\phi (x)-E_{P(x|\eta )}[\phi (x)])\phi (x)\mathrm{d}x\\ &=\int P(x|\eta )\phi ^{2}(x)-E_{P(x|\eta )}[\phi (x)]P(x|\eta )\phi (x)\mathrm{d}x\\ &=\int P(x|\eta )\phi ^{2}(x)\mathrm{d}x-E_{P(x|\eta )}[\phi (x)]\int P(x|\eta )\phi (x)\mathrm{d}x\\ &=E_{P(x|\eta )}[\phi ^{2}(x)]-E_{P(x|\eta )}^{2}[\phi (x)] =Var_{P(x|\eta )}[\phi (x)]\end{array}A′′(η)=∂η∂(∫h(x)exp{ηTϕ(x)−A(η)}ϕ(x)dx)=∫P(x∣η) h(x)exp{ηTϕ(x)−A(η)}(ϕ(x)−A′(η))ϕ(x)dx=∫P(x∣η)(ϕ(x)−EP(x∣η)[ϕ(x)])ϕ(x)dx=∫P(x∣η)ϕ2(x)−EP(x∣η)[ϕ(x)]P(x∣η)ϕ(x)dx=∫P(x∣η)ϕ2(x)dx−EP(x∣η)[ϕ(x)]∫P(x∣η)ϕ(x)dx=EP(x∣η)[ϕ2(x)]−EP(x∣η)2[ϕ(x)]=VarP(x∣η)[ϕ(x)]
所以A′′(η)=VarP(x∣η)[ϕ(x)].(8.3.5)\color{red}A^{''}(\eta )=Var_{P(x|\eta )}[\phi (x)].\tag{8.3.5}A′′(η)=VarP(x∣η)[ϕ(x)].(8.3.5)
由于方差总是恒大于等于零的,于是有A′′(η)≥0A''(\eta)\geq 0A′′(η)≥0。所以,由此得出A(η)A(\eta)A(η)是一个凸函数。并且,由Ex∼p(x∣η)[ϕ(x)]\mathbb{E}_{x \sim p(x|\eta)}[\phi(x)]Ex∼p(x∣η)[ϕ(x)]和Varx∼p(x∣η)[ϕ(x)]Var_{x \sim p(x|\eta)}[\phi(x)]Varx∼p(x∣η)[ϕ(x)]就可以成功的求解得到A(η)A(\eta)A(η)函数。那么我们做进一步思考,知道了E[x]\mathbb{E}[x]E[x]和E[x2]\mathbb{E}[x^2]E[x2],我们就可以得到所有想要的信息。那么:
E[ϕ(x)]=(E[x]E[x2]).(8.3.6)\color{red}\mathbb{E}[\phi(x)]=\begin{pmatrix}\mathbb{E}[x] \\\mathbb{E}[x^2]\end{pmatrix}.\tag{8.3.6}E[ϕ(x)]=(E[x]E[x2]).(8.3.6)
总结:对数分配函数的一阶导数为充分统计量的均值,对数分配函数的二阶导数为充分统计量的方差。\color{red}对数分配函数的一阶导数为充分统计量的均值,对数分配函数的二阶导数为充分统计量的方差。对数分配函数的一阶导数为充分统计量的均值,对数分配函数的二阶导数为充分统计量的方差。
8.4 极大似然估计与充分统计量
上一节的推导都是在无样本条件下进行的,在有样本的情况下我们也可以通过极大似然估计法来获得一些特定的关系,假设有如下数据:
D={x1,x2,⋯ ,xN}D=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}D={x1,x2,⋯,xN}
使用极大似然估计法求解η\etaη:
ηMLE=argmaxη logP(D∣η)=argmaxη log∏i=1NP(xi∣η)=argmaxη∑i=1NlogP(xi∣η)=argmaxη∑i=1Nlog[h(xi)exp{ηTϕ(xi)−A(η)}]=argmaxη∑i=1N[log h(xi)⏟与η无关+ηTϕ(xi)−A(η)]=argmaxη∑i=1N[ηTϕ(xi)−A(η)]\begin{array}{ll}\eta _{MLE}&=\underset{\eta }{argmax}\; logP(D|\eta )\\ &=\underset{\eta }{argmax}\; log\prod_{i=1}^{N}P(x_{i}|\eta )\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}logP(x_{i}|\eta )\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}log[h(x_{i})exp\left \{\eta ^{T}\phi (x_{i})-A(\eta )\right \}]\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}[\underset{与\eta 无关}{\underbrace{log\; h(x_{i})}}+\eta ^{T}\phi (x_{i})-A(\eta )]\\ &=\underset{\eta }{argmax}\sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]\end{array}ηMLE=ηargmaxlogP(D∣η)=ηargmaxlog∏i=1NP(xi∣η)=ηargmax∑i=1NlogP(xi∣η)=ηargmax∑i=1Nlog[h(xi)exp{ηTϕ(xi)−A(η)}]=ηargmax∑i=1N[与η无关
logh(xi)+ηTϕ(xi)−A(η)]=ηargmax∑i=1N[ηTϕ(xi)−A(η)]
令∂∑i=1NηTϕ(x)−NA(η)∂η=0{\partial\sum_{i=1}^{N}\eta^T\phi(x)-NA(\eta) \over \partial \eta}=0∂η∂∑i=1NηTϕ(x)−NA(η)=0,则有:
∂∑i=1N[ηTϕ(xi)−A(η)]∂η=∑i=1N∂[ηTϕ(xi)−A(η)]∂η=∑i=1N[ϕ(xi)−A′(η)]=∑i=1Nϕ(xi)−NA′(η)=0⇒A′(ηMLE)=1N∑i=1Nϕ(xi).(8.4.1)\begin{array}{ll}\frac{\partial \sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta } &=\sum_{i=1}^{N}\frac{\partial [\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta }\\ &=\sum_{i=1}^{N}[\phi (x_{i})-A^{'}(\eta )] =\sum_{i=1}^{N}\phi (x_{i})-NA^{'}(\eta ) =0\\ &\color{red}\Rightarrow A^{'}(\eta _{MLE})=\frac{1}{N}\sum_{i=1}^{N}\phi (x_{i})\end{array}.\tag{8.4.1}∂η∂∑i=1N[ηTϕ(xi)−A(η)]=∑i=1N∂η∂[ηTϕ(xi)−A(η)]=∑i=1N[ϕ(xi)−A′(η)]=∑i=1Nϕ(xi)−NA′(η)=0⇒A′(ηMLE)=N1∑i=1Nϕ(xi).(8.4.1)
ηMLE=A(−1)′(η)\eta_{MLE}=A^{(-1)} {'}(\eta)ηMLE=A(−1)′(η)
其中A(−1)′A^{(-1)} {'}A(−1)′表示A′A'A′的反函数。
总结:
- ηMLE\eta _{MLE}ηMLE就可以通过求A′(η)A^{'}(\eta )A′(η)的反函数求出来。这说明ϕ(xi)\phi (x_{i})ϕ(xi)是充分统计量,因为只需要记录1N∑i=1Nϕ(xi)\frac{1} {N}\sum_{i=1}^{N}\phi (x_{i})N1∑i=1Nϕ(xi)这一个值就可以求出η\etaη,进而通过η\etaη求出所有的参数。
- 可以直接通过ϕ(x)\phi(x)ϕ(x)求出,因此ϕ(x)\phi(x)ϕ(x)称为充分统计量。
8.5 最大熵角度
8.5.1 概念
- 信息量
设一个事件发生的概率为ppp,那么他的信息量是log1p=−logp\log {1\over p}=-\log plogp1=−logp ,其信息量与概率成反比。信息量:
信息量:−logp.(8.5.1)\color{red}信息量:-\log p.\tag{8.5.1}信息量:−logp.(8.5.1) - 熵
- 熵是随机变量不确定性的度量,不确定性越大,熵值就越大\color{blue}不确定性越大,熵值就越大不确定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布。
- 信息量的期望便是熵:
H[P]=E[−log p(x)]=∫−p(x)log p(x)dx(连续)H[P]=E[−log p(x)]=−∑i=1Np(x)log p(x)(离散).(8.5.2)\color{red}H[P]=E[-log\; p(x)]=\int -p(x)log\; p(x)\mathrm{d}x(连续)\\ H[P]=E[-log\; p(x)]=-\sum_{i=1}^{N}p(x)log\; p(x)(离散).\tag{8.5.2}H[P]=E[−logp(x)]=∫−p(x)logp(x)dx(连续)H[P]=E[−logp(x)]=−i=1∑Np(x)logp(x)(离散).(8.5.2) - 对于熵有很多种,比如分类问题常用的交叉熵,我们本节只讨论最大熵。最大熵就是指事件的等可能,当我们对事件完全不了解时,一切都是随机的,那么就是等可能的。
最大熵⇔等可能最大熵\Leftrightarrow 等可能最大熵⇔等可能
8.5.2 离散情况下的最大熵
- 假设x是离散的,其分布如下:
则最大熵可以表示为:H[p]=−∑xp(x)logp(x)H[p]=-\sum_{x}p(x)\log p(x)H[p]=−∑xp(x)logp(x)x 1 2 … k P p1p_1p1 p2p_2p2 … pkp_kpk - 优化问题
通过求解以下约束优化问题可以求得使得离散情况下熵最大的分布:
{max H[P]=max−∑i=1kpilog pis.t. ∑i=1kpi=1⇔{min∑i=1kpilog pis.t. ∑i=1kpi=1(8.5.3)\left\{\begin{matrix} max\; H[P]=max-\sum_{i=1}^{k}p_{i}log\; p_{i}\\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.\Leftrightarrow \left\{\begin{matrix} min\sum_{i=1}^{k}p_{i}log\; p_{i}\\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.\tag{8.5.3}{maxH[P]=max−∑i=1kpilogpis.t.∑i=1kpi=1⇔{min∑i=1kpilogpis.t.∑i=1kpi=1(8.5.3)
实际上也就是求pi^=arg min−H(p(x))\hat{p_i} = \mathop{\argmin} -H(p(x))pi^=argmin−H(p(x)),其中p=(p1p2⋯pk)Tp=\begin{pmatrix} p_1 & p_2 & \cdots & p_k \end{pmatrix}^Tp=(p1p2⋯pk)T。我们使用拉格朗日乘子法来求带约束的方程的极值。定义损失函数为:
L(P,λ)=∑i=1kpilog pi+λ(1−∑i=1kpi).(8.5.4)L(P,\lambda )=\sum_{i=1}^{k}p_{i}log\; p_{i}+\lambda (1-\sum_{i=1}^{k}p_{i}).\tag{8.5.4}L(P,λ)=i=1∑kpilogpi+λ(1−i=1∑kpi).(8.5.4) - 求解优化问题
对pi^\hat{p_i}pi^的求解:
∂L∂pi=log pi+pi1pi−λ=log pi+1−λ=0⇒p^i=exp(λ−1).(8.5.5)\frac{\partial L}{\partial p_{i}}=log\; p_{i}+p_{i}\frac{1}{p_{i}}-\lambda =log\; p_{i}+1-\lambda =0\\ \Rightarrow \hat{p}_{i}=exp(\lambda -1).\tag{8.5.5}∂pi∂L=logpi+pipi1−λ=logpi+1−λ=0⇒p^i=exp(λ−1).(8.5.5)
又因为λ\lambdaλ是一个常数,所以p^i\hat{p}_ip^i是一个常数,那么我们可以轻易每个p^i\hat{p}_{i}p^i都等于exp(λ−1)exp(\lambda -1)exp(λ−1),由∑i=1kpi=1\sum_{i=1}^{k}p_{i}=1∑i=1kpi=1可以得到:
p^1=p^2=⋯=p^k=1k.(8.5.6)\hat{p}_{1}=\hat{p}_{2}=\cdots =\hat{p}_{k}=\frac{1}{k}.\tag{8.5.6}p^1=p^2=⋯=p^k=k1.(8.5.6)
很显然p(x)p(x)p(x)是一个均匀分布,那么关于离散变量的无信息先验的最大熵分布\color{blue}关于离散变量的无信息先验的最大熵分布关于离散变量的无信息先验的最大熵分布就是均匀分布\color{red}均匀分布均匀分布。也可以这样表述:在没有任何已知情况下,等可能就是不确定性最高的时候,而不确定性最大则熵最大。\color{red}在没有任何已知情况下,等可能就是不确定性最高的时候,而不确定性最大则熵最大。在没有任何已知情况下,等可能就是不确定性最高的时候,而不确定性最大则熵最大。
8.5.3 指数族分布的最大熵原理
在机器学习中,已知事实就是给定的数据,那么如何将数据转换为约束呢?
- 定义相关约束
- 我们已经有了一部分数据:
Data={x1,x2,⋯ ,xN}Data=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}Data={x1,x2,⋯,xN} - 根据数据我们可以定义其经验分布:
p^(x=n)=p^(n)=count(n)N.(8.5.7)\hat{p}(x=n)=\hat{p}(n)=\frac{count(n)}{N}.\tag{8.5.7}p^(x=n)=p^(n)=Ncount(n).(8.5.7)这里 p^(x)\hat{p}(x)p^(x)是指取值为xxx的数据所占的比例,即频率。通过该分布可以获得数据的一些属性,比如Ep^[x],Varp^[x],⋯E_{\hat{p}}[x],Var_{\hat{p}}[x],\cdotsEp^[x],Varp^[x],⋯。
- 假设f(x)f(x)f(x)是任意关于xxx的函数向量,令Ep^[f(x)]=Δ(已知)\color{red}E_{\hat{p}}[f(x)]=\Delta(已知)Ep^[f(x)]=Δ(已知),则满足:
f(x)=(f1(x)f2(x)⋮fQ(x)) Δ=(Δ1Δ2⋮ΔQ).(8.5.8)f(x)=\begin{pmatrix} f_{1}(x)\\ f_{2}(x)\\ \vdots \\ f_{Q}(x) \end{pmatrix}\; \; \Delta =\begin{pmatrix} \Delta _{1}\\ \Delta _{2}\\ \vdots \\ \Delta _{Q} \end{pmatrix}.\tag{8.5.8}f(x)=⎝⎜⎜⎜⎛f1(x)f2(x)⋮fQ(x)⎠⎟⎟⎟⎞Δ=⎝⎜⎜⎜⎛Δ1Δ2⋮ΔQ⎠⎟⎟⎟⎞.(8.5.8) - 因此对于p(x)p(x)p(x),其熵为H[p]=−∑xp(x)logp(x)H[p] = - \sum_x p(x)\log p(x)H[p]=−∑xp(x)logp(x)。其约束为:
{min∑xp(x)logp(x)s.t. ∑xp(x)=1 Ep^[f(x)]=Δ.(8.5.9)\color{blue}\begin{cases} \min\displaystyle\sum_xp(x)\log p(x)\\ s.t.\ \ \displaystyle\sum_xp(x)=1\\ \ \ \ \ \ \ \ \ \ \ E_{\hat p}[f(x)]=\Delta \end{cases}.\tag{8.5.9}⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧minx∑p(x)logp(x)s.t. x∑p(x)=1 Ep^[f(x)]=Δ.(8.5.9)
- 我们已经有了一部分数据:
- 求解约束问题
- 使用拉格朗日乘子法进行求解,首先定义拉格朗日函数:
L(P,λ0,λ)=∑xp(x)log p(x)+λ0(1−∑xp(x))+λT(Δ−Ep[f(x)]).(8.5.10)L(P,\lambda _{0},\lambda )=\sum _{x}p(x)log\; p(x)+\lambda _{0}(1-\sum _{x}p(x))+\lambda ^{T}(\Delta -E_{p}[f(x)]).\tag{8.5.10}L(P,λ0,λ)=x∑p(x)logp(x)+λ0(1−x∑p(x))+λT(Δ−Ep[f(x)]).(8.5.10)
其中Ep[f(x)]=∑xp(x)f(x)E_p[f(x)]=\sum_x p(x)f(x)Ep[f(x)]=∑xp(x)f(x)。则:
L(p,λ0,λ)=∑i=1Np(xi)logp(xi)+λ0(1−∑xp)+λT(Δ−∑xp(x)f(x)).(8.5.11)\color{blue}\mathcal{L}(p,\lambda_0, \lambda) = \sum_{i=1}^N p(x_i)\log p(x_i) + \lambda_0(1-\sum_{x} p)+\lambda^T(\Delta - \sum_x p(x)f(x)).\tag{8.5.11}L(p,λ0,λ)=i=1∑Np(xi)logp(xi)+λ0(1−x∑p)+λT(Δ−x∑p(x)f(x)).(8.5.11) - 接着对p(x)p(x)p(x)进行求导,这里指的是对每个p(xi)p(x_{i})p(xi)进行求导:
∂L∂p(x)=0{\partial L \over \partial p(x)}=0∂p(x)∂L=0
∑x(logp(x)+p(x)1p(x))−λ0∑x1−λT∑xf(x)=0∑x(logp(x)+1−λ0−λTf(x))=0\begin{array}{c} \sum_x(\log p(x)+p(x){1\over p(x)})-\lambda_0\sum_x 1-\lambda^T\sum_x f(x)&=0\\ \sum_x(\log p(x)+1-\lambda_0-\lambda^Tf(x))&=0 \end{array}∑x(logp(x)+p(x)p(x)1)−λ0∑x1−λT∑xf(x)∑x(logp(x)+1−λ0−λTf(x))=0=0
此处求和结果为000,但实际上在求导时,总是针对某个xix_ixi,这样的话,其余xj(i≠j)x_j(i\neq j)xj(i=j)都为000,所以此处可以化为求和内每一项都为000,即:
logp(x)+1−λ0−λTf(x)=0logp(x)=λ0+λTf(x)−1p(x)=exp{λ0+λTf(x)−1}p(x)=exp{λT⏟ηTf(x)⏟ϕ(x)−(1−λ0)⏟A(η)}\begin{array}{r} \log p(x)+1-\lambda_0-\lambda^Tf(x)&=0\\ \log p(x)&=\lambda_0+\lambda^Tf(x)-1\\ p(x)&=\exp\{ \lambda_0+\lambda^Tf(x)-1 \}\\ p(x)&=\exp\{ \color{red}{\underbrace{\lambda^T}_{\eta^T}} \color{blue}{\underbrace{f(x)}_{\phi(x)}}-\color{green}{\underbrace{(1-\lambda_0)}_{A(\eta)}} \} \end{array}logp(x)+1−λ0−λTf(x)logp(x)p(x)p(x)=0=λ0+λTf(x)−1=exp{λ0+λTf(x)−1}=exp{ηT λTϕ(x) f(x)−A(η) (1−λ0)}
显示p(x)p(x)p(x)是一个指数族分布,因此对于连续变量xxx,其在满足既定事实的条件下对应的最大熵的分布是一个指数族分布。连续变量最大嫡对应于高斯分布。
- 使用拉格朗日乘子法进行求解,首先定义拉格朗日函数:
8.6 总结
- 指数族分布的基本形式:
P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}=1exp{A(η)}h(x)exp{ηTϕ(x)}.(8.6.1)P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}h(x)exp\left \{\eta ^{T}\phi (x)\right \}.\tag{8.6.1}P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}=exp{A(η)}1h(x)exp{ηTϕ(x)}.(8.6.1)- η\etaη:参数向量parameter,η∈Rp\eta \in \mathbb{R}^pη∈Rp。
- A(η)A(\eta)A(η):log partition function (对数配分函数)。
- ϕ(x)\phi(x)ϕ(x):sufficient statistics magnitude(充分统计量)。
- 高斯函数指数族分布的形式:
P(x∣θ)=12πσexp{−(x−μ)22σ2}=exp{(μσ2−12σ2)⏟ηT(xx2)⏟ϕ(x)−(μ22σ2+12log(2πσ2))⏟A(η)}.(8.6.2)P(x|\theta)={1\over\sqrt{2\pi}\sigma}\exp\{ -{(x-\mu)^2\over 2\sigma^2}\}\\ =\exp\{ \color{red}{\underbrace{\begin{pmatrix}{\mu\over \sigma^2} &-{1\over 2\sigma^2}\end{pmatrix} }_{\eta^T} } \color{blue}{\underbrace{\begin{pmatrix}x \\ x^2\end{pmatrix}}_{\phi(x)}}-\color{green}{\underbrace{ ({\mu^2 \over 2\sigma^2}+{1\over2}\log(2\pi\sigma^2)) }_{A(\eta)}}\} .\tag{8.6.2}P(x∣θ)=2πσ1exp{−2σ2(x−μ)2}=exp{ηT (σ2μ−2σ21)ϕ(x) (xx2)−A(η) (2σ2μ2+21log(2πσ2))}.(8.6.2)
其中h(x)=1; η=(η1η2)=(μσ2−12σ2); ϕ(x)=(xx2); A(η)=η124η2+12log(−π2η2).(8.6.3)h(x)=1;\; \eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix};\; \phi (x)=\begin{pmatrix} x\\ x^{2} \end{pmatrix};\; A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}}).\tag{8.6.3}h(x)=1;η=(η1η2)=(σ2μ−2σ21);ϕ(x)=(xx2);A(η)=4η2η12+21log(−2η2π).(8.6.3) - 对数配分函数与充分统计量的关系
A′(η)=Ex∼p(x∣η)[ϕ(x)].(8.6.4)\color{red}A'(\eta) = \mathbb{E}_{x \sim p(x|\eta)}[\phi(x)].\tag{8.6.4}A′(η)=Ex∼p(x∣η)[ϕ(x)].(8.6.4)
A′′(η)=VarP(x∣η)[ϕ(x)].(8.6.5)\color{red}A^{''}(\eta )=Var_{P(x|\eta )}[\phi (x)].\tag{8.6.5}A′′(η)=VarP(x∣η)[ϕ(x)].(8.6.5) - 信息量
设一个事件发生的概率为ppp,那么他的信息量是log1p=−logp\log {1\over p}=-\log plogp1=−logp ,其信息量与概率成反比。信息量:
信息量:−logp.(8.6.6)\color{red}信息量:-\log p.\tag{8.6.6}信息量:−logp.(8.6.6) - 熵
- 熵是随机变量不确定性的度量,不确定性越大,熵值就越大\color{blue}不确定性越大,熵值就越大不确定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布。
- 信息量的期望便是熵:
H[P]=E[−log p(x)]=∫−p(x)log p(x)dx(连续)H[P]=E[−log p(x)]=−∑i=1Np(x)log p(x)(离散).(8.6.7)\color{red}H[P]=E[-log\; p(x)]=\int -p(x)log\; p(x)\mathrm{d}x(连续)\\ H[P]=E[-log\; p(x)]=-\sum_{i=1}^{N}p(x)log\; p(x)(离散).\tag{8.6.7}H[P]=E[−logp(x)]=∫−p(x)logp(x)dx(连续)H[P]=E[−logp(x)]=−i=1∑Np(x)logp(x)(离散).(8.6.7)
- 指数族分布的最大熵原理
- 我们已经有了一部分数据:
Data={x1,x2,⋯ ,xN}Data=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}Data={x1,x2,⋯,xN} - 根据数据我们可以定义其经验分布:
p^(x=n)=p^(n)=count(n)N.(8.6.8)\hat{p}(x=n)=\hat{p}(n)=\frac{count(n)}{N}.\tag{8.6.8}p^(x=n)=p^(n)=Ncount(n).(8.6.8)这里 p^(x)\hat{p}(x)p^(x)是指取值为xxx的数据所占的比例,即频率。通过该分布可以获得数据的一些属性,比如Ep^[x],Varp^[x],⋯E_{\hat{p}}[x],Var_{\hat{p}}[x],\cdotsEp^[x],Varp^[x],⋯。
- 假设f(x)f(x)f(x)是任意关于xxx的函数向量,令Ep^[f(x)]=Δ(已知)\color{red}E_{\hat{p}}[f(x)]=\Delta(已知)Ep^[f(x)]=Δ(已知),则满足:
f(x)=(f1(x)f2(x)⋮fQ(x)) Δ=(Δ1Δ2⋮ΔQ).(8.6.9)f(x)=\begin{pmatrix} f_{1}(x)\\ f_{2}(x)\\ \vdots \\ f_{Q}(x) \end{pmatrix}\; \; \Delta =\begin{pmatrix} \Delta _{1}\\ \Delta _{2}\\ \vdots \\ \Delta _{Q} \end{pmatrix}.\tag{8.6.9}f(x)=⎝⎜⎜⎜⎛f1(x)f2(x)⋮fQ(x)⎠⎟⎟⎟⎞Δ=⎝⎜⎜⎜⎛Δ1Δ2⋮ΔQ⎠⎟⎟⎟⎞.(8.6.9) - 因此对于p(x)p(x)p(x),其熵为H[p]=−∑xp(x)logp(x)H[p] = - \sum_x p(x)\log p(x)H[p]=−∑xp(x)logp(x)。其约束为:
{min∑xp(x)logp(x)s.t. ∑xp(x)=1 Ep^[f(x)]=Δ.(8.6.10)\color{blue}\begin{cases} \min\displaystyle\sum_xp(x)\log p(x)\\ s.t.\ \ \displaystyle\sum_xp(x)=1\\ \ \ \ \ \ \ \ \ \ \ E_{\hat p}[f(x)]=\Delta \end{cases}.\tag{8.6.10}⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧minx∑p(x)logp(x)s.t. x∑p(x)=1 Ep^[f(x)]=Δ.(8.6.10) - 通过拉格朗日乘子法得:
p(x)=exp{λT⏟ηTf(x)⏟ϕ(x)−(1−λ0)⏟A(η)}.(8.6.11)p(x)=\exp\{ \color{red}{\underbrace{\lambda^T}_{\eta^T}} \color{blue}{\underbrace{f(x)}_{\phi(x)}}-\color{green}{\underbrace{(1-\lambda_0)}_{A(\eta)}}\}.\tag{8.6.11}p(x)=exp{ηT λTϕ(x) f(x)−A(η) (1−λ0)}.(8.6.11)
- 我们已经有了一部分数据:
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)