• 决策树可用于分类和预测。常见的决策树算法有ID3、C4.5和CART。
  • 信息熵:不确定性的度量,事物越混乱就越不确定,信息熵越小越事物越确定。
  • 信息增益:信息增益越大,事物的不确定性下降的越快,也就是说事物越趋近于确定,信息增益越大不确定性下降越快。
  • 信息增益率:信息增益率越大,事物越确定。
  • 基尼系数:不确定性的度量,事物越混乱就越不确定,基尼系数越小越事物越确定。

信息熵公式
Entropy(D)=−∑i=1mpilog2pi Entropy(D) = -\sum_{i=1} ^ m p_i log_{2}p_i Entropy(D)=i=1mpilog2pi
上式中pip_ipiiii类样本所占比例。

  • ID3:使用信息增益作为划分属性的依据。

信息增益公式
Gain(D,A)=Entropy(D)−∑i=1mDmDEntropy(Dm) Gain(D, A) = Entropy(D) - \sum_{i=1} ^ m \frac{D_m}{D} Entropy(D_m) Gain(D,A)=Entropy(D)i=1mDDmEntropy(Dm)

上式中DmD\frac{D_m}{D}DDm为第m个划分节点的权重值。

  • C4.5:使用信息增益率作为划分属性的依据。

信息增益率公式
GainRatio(D,A)=Gain(D,A)Entropy(D) GainRatio(D, A) = \frac{Gain(D, A)}{Entropy(D)} GainRatio(D,A)=Entropy(D)Gain(D,A)

上式中
Entropy(D)=−∑i=1m∣Dm∣∣D∣log2∣Dm∣∣D∣ Entropy(D) = - \sum_{i=1} ^ m \frac{|D_m|}{|D|} log_{2} \frac{|D_m|}{|D|}Entropy(D)=i=1mDDmlog2DDm

  • CART:使用基尼系数作为划分属性的依据。

基尼系数公式

推导:
Entropy(D)=−∑i=1mpilog2pi Entropy(D) = -\sum_{i=1} ^ m p_i log_{2}p_iEntropy(D)=i=1mpilog2pi

=−∑i=1mpi(pi−1) = -\sum_{i=1} ^ m p_i (p_i - 1) =i=1mpi(pi1)

=∑i=1mpi(1−pi) = \sum_{i=1} ^ m p_i (1 - p_i) =i=1mpi(1pi)

=1−∑i=1mpi2 = 1 - \sum_{i=1} ^ m p_i^{2} =1i=1mpi2

结果:

Gain(D)=1−∑i=1mpi2 Gain(D) = 1 - \sum_{i=1} ^ m p_i^{2} Gain(D)=1i=1mpi2

Gain(D,A)=∑i=1mDmDGini(Dm) Gain(D, A) = \sum_{i=1} ^ m \frac{D_m}{D} Gini(D_m)Gain(D,A)=i=1mDDmGini(Dm)

  • 比较ID3、C4.5和CART的分类误差率
    在这里插入图片描述

如上图所示,

  • 红线与x轴组成的区域为标准分类误差率。

  • 绿线与x轴组成的区域为基尼系数分类误差率。

  • 蓝线与x轴组成的区域为信息熵分类误差率。

  • bootstrap:自助采样法,即有放回采样。

  • oob :oob全称out of bag。随机森林在bootstrap时大约有37%的样本没有取到,而这未取到的样本就是oob。

  • oob误差:用oob样本数据作为测试集时,计算得出的误差称为oob误差。

  • bagging:是一种集成学习的方法,基于bootstrap的采样方式。通过并行的方式将多个基学习器组合成一个强学习器。
    [外链图片转存中…(img-lVXDR1MG-1593959645463)]

  • 随机森林:由多颗决策树组成,可以用于分类和预测。随机森林有两个随机,分别是:样本随机和特征随机。

随机森林分类和回归的策略

分类:采用投票的方式,少数服从多数。每个树会投给某个类别,取所有树投票数最多的类别作为随机森林的输出。

回归:一般采用平均法。取所有决策树的均值作为随机森林的输出。

随机森林公式

普通平均法:
G(x)=1m∑i=1mgi(x)G(x) = \frac{1}{m} \sum_{i=1} ^ m g_i(x) G(x)=m1i=1mgi(x)
上式中 gm(x)g_m(x)gm(x)为每个基学习器的值。

加权平均法:
G(x)=∑i=1mwigi(x)G(x) = \sum_{i=1} ^ m w_i g_i(x) G(x)=i=1mwigi(x)
上式中 wiw_iwi为每个基学习器的权重。

欢迎大家交流学习,任何问题都可以留言
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐