【决策树ID3算法/C4.5算法/CART算法+随机森林算法】机器学习公式推导计算+详细过程（入门必备）

决策树可用于分类和预测。常见的决策树算法有ID3、C4.5和CART。信息熵：不确定性的度量，事物越混乱就越不确定，信息熵越小越事物越确定。信息增益：信息增益越大，事物的不确定性下降的越快，也就是说事物越趋近于确定，信息增益越大不确定性下降越快。信息增益率：信息增益率越大，事物越确定。基尼系数：不确定性的度量，事物越混乱就越不确定，基尼系数越小越事物越确定。信息熵公式Entropy(D)=−∑i=

CV_William

2247人浏览 · 2020-07-05 22:30:58

CV_William · 2020-07-05 22:30:58 发布

决策树可用于分类和预测。常见的决策树算法有ID3、C4.5和CART。
信息熵：不确定性的度量，事物越混乱就越不确定，信息熵越小越事物越确定。
信息增益：信息增益越大，事物的不确定性下降的越快，也就是说事物越趋近于确定，信息增益越大不确定性下降越快。
信息增益率：信息增益率越大，事物越确定。
基尼系数：不确定性的度量，事物越混乱就越不确定，基尼系数越小越事物越确定。

信息熵公式
$-\sum_{i=1} ^ m p_i log_{2}p_i$
上式中 $p_i$ 为 $i$ 类样本所占比例。

ID3:使用信息增益作为划分属性的依据。

信息增益公式
$\sum_{i=1} ^ m \frac{D_m}{D} Entropy(D_m)$

上式中 $DmD\frac{D_m}{D}$ 为第m个划分节点的权重值。

C4.5:使用信息增益率作为划分属性的依据。

信息增益率公式
$\frac{Gain(D, A)}{Entropy(D)}$

上式中
$\sum_{i=1} ^ m \frac{|D_m|}{|D|} log_{2} \frac{|D_m|}{|D|}$

CART:使用基尼系数作为划分属性的依据。

基尼系数公式

推导：
$-\sum_{i=1} ^ m p_i log_{2}p_i$

$-\sum_{i=1} ^ m p_i (p_i - 1)$

$\sum_{i=1} ^ m p_i (1 - p_i)$

$\sum_{i=1} ^ m p_i^{2}$

结果：

$\sum_{i=1} ^ m p_i^{2}$

$\sum_{i=1} ^ m \frac{D_m}{D} Gini(D_m)$

比较ID3、C4.5和CART的分类误差率

如上图所示，

红线与x轴组成的区域为标准分类误差率。
绿线与x轴组成的区域为基尼系数分类误差率。
蓝线与x轴组成的区域为信息熵分类误差率。
bootstrap：自助采样法，即有放回采样。
oob ：oob全称out of bag。随机森林在bootstrap时大约有37%的样本没有取到，而这未取到的样本就是oob。
oob误差：用oob样本数据作为测试集时，计算得出的误差称为oob误差。
bagging：是一种集成学习的方法，基于bootstrap的采样方式。通过并行的方式将多个基学习器组合成一个强学习器。
[外链图片转存中…(img-lVXDR1MG-1593959645463)]
随机森林：由多颗决策树组成，可以用于分类和预测。随机森林有两个随机，分别是：样本随机和特征随机。

随机森林分类和回归的策略

分类：采用投票的方式，少数服从多数。每个树会投给某个类别，取所有树投票数最多的类别作为随机森林的输出。

回归：一般采用平均法。取所有决策树的均值作为随机森林的输出。

随机森林公式

普通平均法：
$\frac{1}{m} \sum_{i=1} ^ m g_i(x)$
上式中 $g_m(x)$ 为每个基学习器的值。

加权平均法：
$\sum_{i=1} ^ m w_i g_i(x)$
上式中 $w_i$ 为每个基学习器的权重。

欢迎大家交流学习，任何问题都可以留言

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r