信息量的理解

  信息量是对信息的度量,是指某个事件发生时我们所接收到的信息量的多少。信息的大小跟随机事件的概率有关。越小概率的事件发生了产生的信息量越大,越大概率发生事件发生了产生的信息量越小。
  “太阳从东边升起”,是一个必然事件,其概率为1,当它发生时,我们不能从其中提取出对我们有什么用的信息,所以它的信息量为0。
  “太阳从西边升起”,是一件几乎不可能事件,其概率接近0,当它发生时,我们便会获得大量的信息,比如是不是地球自转方向改变了哇,或者是太阳开始绕着地球转了哇,可以说给我们带来的信息是无穷无尽的,可以说它的信息量为+∞+\infty+
  又比如“明天会下雨”,这是一个不确定的事件,它的概率为(0, 1),即非可能又非绝对,因此当它发生的时候,会给我们带来有限的信息,比如明天要带伞,天气可能要变凉了等等。

信息量的定义

  由上面的例子可以知道,信息量与事件发生的概率成反比,其区间为[0, +∞+\infty+],所以我们定义信息量的公式如下
I(xi)=−log⁡2p(xi)I(x_{i})=-\log_{2}{p(x_{i})}I(xi)=log2p(xi)其中xix_{i}xi表示随机变量,p(xi)p(x_{i})p(xi)表示xix_{i}xi的概率。

例如某地二月份天气的概率分布统计如下:
{XP(X)}={x1(晴),x2(阴),x3(雨),x4(雪)1/2,1/4,1/8,1/8} \begin{Bmatrix} X\\ P(X) \end{Bmatrix} =\begin{Bmatrix} x_{1}(晴), &x_{2}(阴), &x_{3}(雨), &x_{4}(雪)\\ 1/2, &1/4, &1/8, &1/8 \end{Bmatrix} {XP(X)}={x1(),1/2,x2(),1/4,x3(),1/8,x4()1/8}这四种气候的信息量分别为I(x1)=1bit,I(x2)=2bit,I(x3)=3bit,I(a4)=3bitI(x_{1})=1bit,I(x_{2})=2bit,I(x_{3})=3bit,I(a_{4})=3bitI(x1)=1bitI(x2)=2bitI(x3)=3bitI(a4)=3bit
解释:随机变量xxx表示天气,x1x_{1}x1表示晴天,p(x1)p(x_{1})p(x1)表示为晴天的概率为1/21/21/2,那么晴天的信息量就为I(x1)=−log⁡2(1/2)=1bitI(x_{1})=-\log_{2}{(1/2)}=1bitI(x1)=log2(1/2)=1bit (bit为信息量的单位),其他的依次类推。

信息熵

  信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即
H(x)=−∑inp(xi)log2p(xi)H(x)=-\sum_{i}^{n}{p(x_{i})log_{2}{p(x_{i})}}H(x)=inp(xi)log2p(xi)信息熵是用来衡量事物不确定性的。信息熵越大,事物越具不确定性,事物越复杂。

例如,你抛一枚硬币,便只有正负两个结果,其信息熵H(x)=−0.5log⁡20.5+0.5log⁡20.5=1H(x)=-0.5\log_2{0.5}+0.5\log_2{0.5}=1H(x)=0.5log20.5+0.5log20.5=1,而如果你抛一个骰子,其有6种结果,其信息熵为H(x)=−∑161/6log⁡2(1/6)=2.5849H(x)=-\sum_{1}^{6}{1/6\log_2{(1/6)}}=2.5849H(x)=161/6log2(1/6)=2.5849,因此抛骰子时的不确定性更大,也更复杂。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐