机器学习各类编码方式

One-Hot Encoding（独热编码）：Label Encoding（标签编码）：WOE Encoding（Weight of Evidence 编码）：WOE编码（证据权重编码）：

聪明小孩子

416人浏览 · 2024-04-25 10:24:17

聪明小孩子 · 2024-04-25 10:24:17 发布

One-Hot Encoding（独热编码）：
- One-Hot Encoding 是将分类变量转换为二进制向量的编码方法。对于具有 n 个不同类别的分类变量，One-Hot Encoding 会创建一个长度为 n 的二进制向量，其中只有一个元素为 1，其余元素为 0，该元素对应于该分类变量的类别。
- 例如，对于一个性别变量，可以创建两个新变量：Is_Male 和 Is_Female，其中一个表示男性（1, 0），另一个表示女性（0, 1）。
Label Encoding（标签编码）：
- Label Encoding 是将分类变量的每个类别映射到一个整数值的编码方法。对于具有 n 个不同类别的分类变量，Label Encoding 将每个类别依次映射到整数值 0 到 n-1。
- 例如，对于一个颜色变量，可能将红色编码为 0，绿色编码为 1，蓝色编码为 2 等。
WOE Encoding（Weight of Evidence 编码）：WOE编码（证据权重编码）：
- WOE 编码是一种用于对分类变量进行编码的方法，特别适用于评分卡建模等场景。它使用每个类别的好坏比（Good/Bad ratio）来编码每个类别，用于描述该类别相对于其他类别的重要性。
- WOE 编码的计算公式是：WOE=ln⁡(%Good%Bad)WOE=ln(%Bad%Good)，其中 % Good 和 % Bad 分别表示该类别中好客户和坏客户的比例。
- WOE 编码的值可以被解释为某一类别相对于整个样本的相对影响，正值表示该类别对好客户的影响更大，负值表示该类别对坏客户的影响更大。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

ThingsBoard终极数据库分区策略：提升大数据量表查询性能的完整指南

在物联网（IoT）平台的应用中，随着设备数量和数据量的爆炸式增长，数据库性能往往成为系统瓶颈。ThingsBoard作为开源的IoT平台，提供了强大的设备管理、数据收集和可视化功能，但面对海量时序数据时，合理的数据库分区策略是确保系统高效运行的关键。本文将详细介绍如何通过数据库分区优化ThingsBoard的查询性能，帮助你轻松应对大数据量挑战。## 为什么数据库分区对ThingsBoard至