1. 信息熵

信息量

信息量度量一个事件/一个随机变量具体值发生所带来的信息多少。

  1. 一些性质
  • 信息量大于等于0。
  • 事件发生的概率与信息量成反比。
  • 相互独立事件 A, B 同时发生的信息量等于各自发生时的信息量之和。
  1. 公式
    H ( x ) = − l o g 2 ( x ) H(x) = -log_2(x) H(x)=log2(x)

信息熵(entropy)

信息熵度量所有可能事件/随机变量信息量的期望。
熵计算公式
n 表示集合中分组数量。pi 表示第 i 个分组的元素在集合中出现的概率。

信息增益(Information gain)

条件熵是指某一条件下的信息熵。信息增益表示某一条件下信息不确定性减少的程度。
信息增益计算公式
T 表示选择的特征。Entropy(Pv) 表示 T=v 时的熵。

2. 决策树

2.1 建树/训练

  1. 根据样本分类计算集合的熵值,加权平均后得到整个数据集的熵值。
  2. 计算每个特征的信息增益,选择区分能力最强的特征,并对每个集合进行更细的划分。
  3. 重复上述步骤,直到没有更多特征或所有样本都已被分好类。

2.2 算法

1) 概览

算法名 特征选择标准 特点
ID3 信息增益 取值过多时,容易导致机器学习中的过拟合
C4.5 信息增益率 克服因取值过多导致的过拟合
CART 基尼指数 采用二叉树,每次把数据切成两份(而非根据特征值切分)

2) 信息增益率 & C4.5算法

子集数量越多,分裂信息值越大。
分裂信息
训练集 P 通过特征 T 划分为 n 个子集合。|Pi| 表示 T=i 时子集合中样本的数量。|P|表示训练集 P 中样本的数量。

信息增益率引入分裂信息项来惩罚取值较多的特征。
增益信息率

3) 基尼指数 & CART算法

基尼指数是熵模型的近似。由于没有对数运算,基尼指数的计算开销较小。
Gini
n 表示集合 P 包含的组别数。Pi 表示样本分到某一组别的概率。

整个数据集的基尼系数计算公式如下。
Gini index

2.3 优化

  • 剪枝
  • 随机森林
  • … …

3. 特征选择

特征是可用于模型拟合的各种数据。

4. 参考

程序员的数学基础课
通俗理解信息熵
为什么决策树中经常用熵作为判别条件而不是基尼不纯度?

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐