机器学习笔记-决策树-基本原理

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言决策树算法是及其学习中最经典、最基础的算法之一。我们需要掌握，以下介绍关于决策树的一些基本原理。一、决策树原理问：决策树能干什么？答：当然是分类！到底明天是不是要去开会？？对其进行简单的分支1.决策树基本概念2.衡量标准3.信息增益4.决策树构造实例5.连续

紧到长不胖

1202人浏览 · 2020-10-11 10:53:22

紧到长不胖 · 2020-10-11 10:53:22 发布

文章目录

前言

决策树算法是及其学习中最经典、最基础的算法之一。我们需要掌握，以下介绍关于决策树的一些基本原理。

一、决策树原理

问：决策树能干什么？

答：当然是分类！

到底明天是不是要去开会？？对其进行简单的分支

1.决策树基本概念

先了解树的结构

根节点：第一次划分数据的地方（天气）

叶子节点：数据的最终决策结果（上图的取消、进行）

非叶子节点与分支：中间过程各个节点

2.衡量标准

熵：物体内部的混乱程度，熵值越高，混乱程度越高

举例：你去百货大楼买衣服，发现衣服有Nike、Adidas、A21等等，你买哪款牌子的衣服似乎不确定性就高了，但是你去Nike专卖店，你似乎就只能买Nike。这就是混乱度越低，不确定性就越低。

熵公式：

$H(x)=- \sum_{i=1}^{n}P_{i}\times log(P_{i})$

Gini系数：

$Gini(p)= \sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}$

3.信息增益

我们划分节点，是希望熵值降低，那么划分的前后节点，之间存在一个信息熵的差异，通过计算前后节点的信息熵，得到的信息增益

$Gain(S,A)=Entropy(S)-\sum_{v\in Value}(A) \frac{S_{y}}{\left |S \right |}Entropy(S_{y})$

4.决策树构造实例

图片来源：https://www.sohu.com/a/229947064_295682

14条关于天气状况，决定是否外出打球？

outlook：取值sunny、rainy、overcast

temperature：取值hot、cool、mild

humidity：取值high、normal

windy：取值True、False

·先将4个特征均按根节点划分。然后计算其熵值。以outlook举例：

首先：9天打球、5天不打球，最初的信息熵为：

$-\frac{9}{14}log_{2}\frac{9}{14}-\frac{5}{14}log_{2}\frac{5}{14}=0.940$

紧接着：outlook=sunny 熵值为0.971

outlook=overcast 熵值为0（全都是出去打球）

outlook=rainy 熵值0.971

outlook取值为sunny、overcast、rainy的概率分别为5/14、4/14、5/14，对outlook取加权平均得到outlook的最终熵值

$\frac{5}{14}*0.971+\frac{4}{14}*0+\frac{5}{14}*0.971=0.693$

信息增益：0.940-0.693=0.247

重复以上步骤，计算其余三个特征的熵和信息增益，gain(temperature)=0.029,gain(humidity)=0.152,gain(windy)=0.048,选信息增益最大的，即是outlook作为根节点。

5.连续值问题

对连续形数据（身高、体重）需要找到最合适的特征以及最合适的特征分点。

确定最合适的特征分点：x = [1,2,3,4,5,6,7,8],首先在1,2之间以1.5作为切分点，计算熵值，接着在2,3以2.5切分，计算熵值，选择信息增益最大的，作为最终的切分点。

6.信息增益率

信息增益率：

ID3基于信息增益构建方法

C4.5信息增益比率，处理特征比较分散的特征，将自身熵值作为分母，信息增益作为分子，信息增益比较大，但是由于自身熵值更大，整体的信息增益率就会变小。

7.回归问题求解

说明白就是，转换衡量标准。分类任务是熵值下降最多，回归只需找出方差最小。取平均值最为预测结果。

二、决策树剪枝策略

为什么要剪枝？？？

会造成过拟合！

1.剪枝策略

预剪枝（Pre-Pruning）

构造时进行剪枝

限制树的复杂程度，停止条件：树的层数、叶子节点个数、信息增益阈值

后剪枝（Post-Pruning）

构造完成时

C(T)当前熵值， $T_{leaf}$ 叶子节点

$C_{\alpha} (T)=C(T)+\alpha |T_{leaf}|$

2.决策树算法涉及参数

参见Sklearn中文手册

http://www.scikitlearn.com.cn/

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r