【决策树ID3算法/C4.5算法/CART算法+随机森林算法】 机器学习公式推导计算+详细过程 (入门必备)
决策树可用于分类和预测。常见的决策树算法有ID3、C4.5和CART。信息熵:不确定性的度量,事物越混乱就越不确定,信息熵越小越事物越确定。信息增益:信息增益越大,事物的不确定性下降的越快,也就是说事物越趋近于确定,信息增益越大不确定性下降越快。信息增益率:信息增益率越大,事物越确定。基尼系数:不确定性的度量,事物越混乱就越不确定,基尼系数越小越事物越确定。信息熵公式Entropy(D)=−∑i=
- 决策树可用于分类和预测。常见的决策树算法有ID3、C4.5和CART。
- 信息熵:不确定性的度量,事物越混乱就越不确定,信息熵越小越事物越确定。
- 信息增益:信息增益越大,事物的不确定性下降的越快,也就是说事物越趋近于确定,信息增益越大不确定性下降越快。
- 信息增益率:信息增益率越大,事物越确定。
- 基尼系数:不确定性的度量,事物越混乱就越不确定,基尼系数越小越事物越确定。
信息熵公式
Entropy(D)=−∑i=1mpilog2pi Entropy(D) = -\sum_{i=1} ^ m p_i log_{2}p_i Entropy(D)=−i=1∑mpilog2pi
上式中pip_ipi为iii类样本所占比例。
- ID3:使用信息增益作为划分属性的依据。
信息增益公式
Gain(D,A)=Entropy(D)−∑i=1mDmDEntropy(Dm) Gain(D, A) = Entropy(D) - \sum_{i=1} ^ m \frac{D_m}{D} Entropy(D_m) Gain(D,A)=Entropy(D)−i=1∑mDDmEntropy(Dm)
上式中DmD\frac{D_m}{D}DDm为第m个划分节点的权重值。
- C4.5:使用信息增益率作为划分属性的依据。
信息增益率公式
GainRatio(D,A)=Gain(D,A)Entropy(D) GainRatio(D, A) = \frac{Gain(D, A)}{Entropy(D)} GainRatio(D,A)=Entropy(D)Gain(D,A)
上式中
Entropy(D)=−∑i=1m∣Dm∣∣D∣log2∣Dm∣∣D∣ Entropy(D) = - \sum_{i=1} ^ m \frac{|D_m|}{|D|} log_{2} \frac{|D_m|}{|D|}Entropy(D)=−i=1∑m∣D∣∣Dm∣log2∣D∣∣Dm∣
- CART:使用基尼系数作为划分属性的依据。
基尼系数公式
推导:
Entropy(D)=−∑i=1mpilog2pi Entropy(D) = -\sum_{i=1} ^ m p_i log_{2}p_iEntropy(D)=−i=1∑mpilog2pi
=−∑i=1mpi(pi−1) = -\sum_{i=1} ^ m p_i (p_i - 1) =−i=1∑mpi(pi−1)
=∑i=1mpi(1−pi) = \sum_{i=1} ^ m p_i (1 - p_i) =i=1∑mpi(1−pi)
=1−∑i=1mpi2 = 1 - \sum_{i=1} ^ m p_i^{2} =1−i=1∑mpi2
结果:
Gain(D)=1−∑i=1mpi2 Gain(D) = 1 - \sum_{i=1} ^ m p_i^{2} Gain(D)=1−i=1∑mpi2
Gain(D,A)=∑i=1mDmDGini(Dm) Gain(D, A) = \sum_{i=1} ^ m \frac{D_m}{D} Gini(D_m)Gain(D,A)=i=1∑mDDmGini(Dm)
- 比较ID3、C4.5和CART的分类误差率

如上图所示,
-
红线与x轴组成的区域为标准分类误差率。
-
绿线与x轴组成的区域为基尼系数分类误差率。
-
蓝线与x轴组成的区域为信息熵分类误差率。
-
bootstrap:自助采样法,即有放回采样。
-
oob :oob全称out of bag。随机森林在bootstrap时大约有37%的样本没有取到,而这未取到的样本就是oob。
-
oob误差:用oob样本数据作为测试集时,计算得出的误差称为oob误差。
-
bagging:是一种集成学习的方法,基于bootstrap的采样方式。通过并行的方式将多个基学习器组合成一个强学习器。
[外链图片转存中…(img-lVXDR1MG-1593959645463)] -
随机森林:由多颗决策树组成,可以用于分类和预测。随机森林有两个随机,分别是:样本随机和特征随机。
随机森林分类和回归的策略
分类:采用投票的方式,少数服从多数。每个树会投给某个类别,取所有树投票数最多的类别作为随机森林的输出。
回归:一般采用平均法。取所有决策树的均值作为随机森林的输出。
随机森林公式
普通平均法:
G(x)=1m∑i=1mgi(x)G(x) = \frac{1}{m} \sum_{i=1} ^ m g_i(x) G(x)=m1i=1∑mgi(x)
上式中 gm(x)g_m(x)gm(x)为每个基学习器的值。
加权平均法:
G(x)=∑i=1mwigi(x)G(x) = \sum_{i=1} ^ m w_i g_i(x) G(x)=i=1∑mwigi(x)
上式中 wiw_iwi为每个基学习器的权重。
欢迎大家交流学习,任何问题都可以留言
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)