【机器学习】信息熵的理解
信息量 信息量是衡量信息多少的度量,是对信息不确定性大小的测量,一个事物的不确定性越大,则其携带的信息就越多,其信息量也就越大,相反,一个事物的不确定性越小,则其携带的信息就越少,其信息量也就越少。举个例子 “太阳从东边升起”,这是一件我们十分确定的事情,就算它发生了,我们也不能从其中提取出对我们有什么用的信息,所以它的信息量为0。 “太阳从西边升起”,这是一件几乎不可能的事情,一旦...
信息量的理解
信息量是对信息的度量,是指某个事件发生时我们所接收到的信息量的多少。信息的大小跟随机事件的概率有关。越小概率的事件发生了产生的信息量越大,越大概率发生事件发生了产生的信息量越小。
“太阳从东边升起”,是一个必然事件,其概率为1,当它发生时,我们不能从其中提取出对我们有什么用的信息,所以它的信息量为0。
“太阳从西边升起”,是一件几乎不可能事件,其概率接近0,当它发生时,我们便会获得大量的信息,比如是不是地球自转方向改变了哇,或者是太阳开始绕着地球转了哇,可以说给我们带来的信息是无穷无尽的,可以说它的信息量为+∞+\infty+∞。
又比如“明天会下雨”,这是一个不确定的事件,它的概率为(0, 1),即非可能又非绝对,因此当它发生的时候,会给我们带来有限的信息,比如明天要带伞,天气可能要变凉了等等。
信息量的定义
由上面的例子可以知道,信息量与事件发生的概率成反比,其区间为[0, +∞+\infty+∞],所以我们定义信息量的公式如下
I(xi)=−log2p(xi)I(x_{i})=-\log_{2}{p(x_{i})}I(xi)=−log2p(xi)其中xix_{i}xi表示随机变量,p(xi)p(x_{i})p(xi)表示xix_{i}xi的概率。
例如某地二月份天气的概率分布统计如下:
{XP(X)}={x1(晴),x2(阴),x3(雨),x4(雪)1/2,1/4,1/8,1/8} \begin{Bmatrix} X\\ P(X) \end{Bmatrix} =\begin{Bmatrix} x_{1}(晴), &x_{2}(阴), &x_{3}(雨), &x_{4}(雪)\\ 1/2, &1/4, &1/8, &1/8 \end{Bmatrix} {XP(X)}={x1(晴),1/2,x2(阴),1/4,x3(雨),1/8,x4(雪)1/8}这四种气候的信息量分别为I(x1)=1bit,I(x2)=2bit,I(x3)=3bit,I(a4)=3bitI(x_{1})=1bit,I(x_{2})=2bit,I(x_{3})=3bit,I(a_{4})=3bitI(x1)=1bit,I(x2)=2bit,I(x3)=3bit,I(a4)=3bit
解释:随机变量xxx表示天气,x1x_{1}x1表示晴天,p(x1)p(x_{1})p(x1)表示为晴天的概率为1/21/21/2,那么晴天的信息量就为I(x1)=−log2(1/2)=1bitI(x_{1})=-\log_{2}{(1/2)}=1bitI(x1)=−log2(1/2)=1bit (bit为信息量的单位),其他的依次类推。
信息熵
信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即
H(x)=−∑inp(xi)log2p(xi)H(x)=-\sum_{i}^{n}{p(x_{i})log_{2}{p(x_{i})}}H(x)=−i∑np(xi)log2p(xi)信息熵是用来衡量事物不确定性的。信息熵越大,事物越具不确定性,事物越复杂。
例如,你抛一枚硬币,便只有正负两个结果,其信息熵H(x)=−0.5log20.5+0.5log20.5=1H(x)=-0.5\log_2{0.5}+0.5\log_2{0.5}=1H(x)=−0.5log20.5+0.5log20.5=1,而如果你抛一个骰子,其有6种结果,其信息熵为H(x)=−∑161/6log2(1/6)=2.5849H(x)=-\sum_{1}^{6}{1/6\log_2{(1/6)}}=2.5849H(x)=−∑161/6log2(1/6)=2.5849,因此抛骰子时的不确定性更大,也更复杂。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)