信息论（机器学习）整理

1.前言信息论（Information Theory）是数学、物理、计算机科学等多个学科的交叉领域。信息论是由香农最早提出，主要研究的是信息的量化、存储和通信等方法。信息指的是一组消息的集合。在机器学习领域，信息论也有着大量的应用，比如特征抽取、统计推断、自然语言处理等[1]^{\left[ 1 \right]}[1]。2.熵熵(Entropy)最早是物理学的概念，在信息论中，熵是用来衡量一个随机

Refrain*

1788人浏览 · 2022-03-14 19:27:59

Refrain* · 2022-03-14 19:27:59 发布

1.前言

信息论（Information Theory）是数学、物理、计算机科学等多个学科的交叉领域。信息论是由香农最早提出，主要研究的是信息的量化、存储和通信等方法。
信息指的是一组消息的集合。在机器学习领域，信息论也有着大量的应用，比如特征抽取、统计推断、自然语言处理等 $[1]^{\left[ 1 \right]}$ 。

2.熵

熵(Entropy)最早是物理学的概念，在信息论中，熵是用来衡量一个随机事件的不确定性。

2.1自信息和熵

自信息表示一个随机事件所包含的信息量。一个随机事件发生的概率越高，其自信息越低。如果一个事件必然发生，其自信息为0.
对于一个随机变量 $X$ 概率分布为 $p (x)$ 自信息的定义为： $I\left( x \right) =-\log p\left( x \right)$
当地为2的时候，自信息的单位为bit。
对于分布为 $p (x)$ 的随机变量 $X$ ,其自信息的数学期望，基熵 $H (x)$ 定义为： $H\left( X \right) =\mathbb{E}_X\left[ I\left( x \right) \right]$
$\ \ \ \ \ \ =\mathbb{E}_X\left[ -\log p\left( x \right) \right]$
$\ \ \ \ \ \ =-\sum_{x∈X}{p\left( x \right) \log p\left( x \right)}$
当 $p (x) = 0$ 时我们定义 $0 l o g 0 = 0$ ,这与极限一致。熵越高，则随机变量的信息量越多；熵越低，则随机变量的信息量越少。如果变量 $X$ 当且仅当在 $x$ 时 $p (x) = 1$ 则熵为0。对于一个确定的信息，其熵为0，信息量也为0.如果其概率分布为一个均匀分布，则熵最大。

2.2熵编码

信息论研究的内容之一是如何用最少的编码表示传递信息。给定一串要传输的文本信息，其中字母信息 $x$ 出现的概率为 $p (x)$ ，其最佳的编码长度为 $−log⁡2p(x)-\log _2p\left( x \right)$ ,整段文本的平均编码长度为
$−∑xp(x)log⁡2p(x)-\sum_x{p\left( x \right) \log _2p\left( x \right)}$ 即底为2的熵。
在对分布 $p (x)$ 的符号进行编码时，熵 $H (p)$ 也是理论上最优平均编码长度，这种编码被称作熵编码(Emtropy Encoding)。

3.交叉熵

交叉熵(Cross Entropy)是按照概率分布 $q$ 的最优编码对真实分布为 $p$ 的信息进行编码的长度，定义为 $H\left( p,q \right) =\mathbb{E}_x\left[ -\log q\left( x \right) \right]$
$\ \ \ \ \ \ \ \ =-\sum_x{p\left( x \right) \log q\left( x \right)}$
在给定 $p$ 的情况下，如果 $q$ 和 $p$ 越接近，交叉熵越小；如果 $q$ 和 $p$ 越远，交叉熵就越大。

3.1交叉熵损失函数

比如对于三分类问题，一个样本的标签向量为 $y=[0,0,1]Ty=\left[ 0,0,1 \right] ^T$
,模型预测的标签分布为 $f(x:θ)=[0.3,0.3,0.4]Tf\left( x:\theta \right) =\left[ 0.3,0.3,0.4 \right] ^T$ 则它们的交叉熵为 $- (0 \times l o g (0.3) + 0 \times l o g (0.3) + 1 \times l o g (0.4) = - l o g (0.4)$
因为y为one-hot向量，公式可以化简为 $\mathcal{L}\left( \boldsymbol{y,}f\left( \boldsymbol{x;}\theta \right) \right) =-\log f_{\boldsymbol{y}}\left( \boldsymbol{x;}\theta \right)$
其中 $fy(x;θ)f_{\boldsymbol{y}}\left( \boldsymbol{x;}\theta \right)$ 可以看作真实类别 $y$ 的似然函数。因此交叉熵损失函数也就是负对数似然函数 $（ N e g a t i v e L o g - L i k e l i h o o d ）$
最大似然估计的目的：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。利用试验结果得到某个参数值能够使样本出现的概率为最大则为极大似然估计。
似然函数：联合概率密度函数 $P(D∣θ)P(D|\theta)$ 称为相对于 ${x1,x2,⋅⋅⋅⋅,xN}\left\{ x_{1,}x_2,····,x_N \right\}$ 的 $θ\theta$ 的似然函数。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模