熵，决策树和特征选择

子诚之

605人浏览 · 2021-02-16 22:44:51

子诚之 · 2021-02-16 22:44:51 发布

1. 信息熵

信息量

信息量度量一个事件/一个随机变量具体值发生所带来的信息多少。

一些性质

信息量大于等于0。
事件发生的概率与信息量成反比。
相互独立事件 A, B 同时发生的信息量等于各自发生时的信息量之和。

公式
$H(x) = -log_2(x)$

信息熵（entropy）

信息熵度量所有可能事件/随机变量信息量的期望。
熵计算公式
n 表示集合中分组数量。p_i 表示第 i 个分组的元素在集合中出现的概率。

信息增益（Information gain）

条件熵是指某一条件下的信息熵。信息增益表示某一条件下信息不确定性减少的程度。
信息增益计算公式
T 表示选择的特征。Entropy(P_v) 表示 T=v 时的熵。

2. 决策树

2.1 建树/训练

根据样本分类计算集合的熵值，加权平均后得到整个数据集的熵值。
计算每个特征的信息增益，选择区分能力最强的特征，并对每个集合进行更细的划分。
重复上述步骤，直到没有更多特征或所有样本都已被分好类。

2.2 算法

1) 概览

算法名	特征选择标准	特点
ID3	信息增益	取值过多时，容易导致机器学习中的过拟合
C4.5	信息增益率	克服因取值过多导致的过拟合
CART	基尼指数	采用二叉树，每次把数据切成两份（而非根据特征值切分）

2) 信息增益率 & C4.5算法

子集数量越多，分裂信息值越大。

训练集 P 通过特征 T 划分为 n 个子集合。|P_i| 表示 T=i 时子集合中样本的数量。|P|表示训练集 P 中样本的数量。

信息增益率引入分裂信息项来惩罚取值较多的特征。
增益信息率

3) 基尼指数 & CART算法

基尼指数是熵模型的近似。由于没有对数运算，基尼指数的计算开销较小。
Gini
n 表示集合 P 包含的组别数。P_i 表示样本分到某一组别的概率。

整个数据集的基尼系数计算公式如下。
Gini index

2.3 优化

剪枝
随机森林
… …

3. 特征选择

特征是可用于模型拟合的各种数据。

4. 参考

程序员的数学基础课
 通俗理解信息熵
 为什么决策树中经常用熵作为判别条件而不是基尼不纯度？

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模