机器学习各类编码方式
One-Hot Encoding(独热编码):Label Encoding(标签编码):WOE Encoding(Weight of Evidence 编码):WOE编码(证据权重编码):
·
-
One-Hot Encoding(独热编码):
- One-Hot Encoding 是将分类变量转换为二进制向量的编码方法。对于具有 n 个不同类别的分类变量,One-Hot Encoding 会创建一个长度为 n 的二进制向量,其中只有一个元素为 1,其余元素为 0,该元素对应于该分类变量的类别。
- 例如,对于一个性别变量,可以创建两个新变量:
Is_Male和Is_Female,其中一个表示男性(1, 0),另一个表示女性(0, 1)。
-
Label Encoding(标签编码):
- Label Encoding 是将分类变量的每个类别映射到一个整数值的编码方法。对于具有 n 个不同类别的分类变量,Label Encoding 将每个类别依次映射到整数值 0 到 n-1。
- 例如,对于一个颜色变量,可能将红色编码为 0,绿色编码为 1,蓝色编码为 2 等。
-
WOE Encoding(Weight of Evidence 编码):WOE编码(证据权重编码):
- WOE 编码是一种用于对分类变量进行编码的方法,特别适用于评分卡建模等场景。它使用每个类别的好坏比(Good/Bad ratio)来编码每个类别,用于描述该类别相对于其他类别的重要性。
- WOE 编码的计算公式是:WOE=ln(%Good%Bad)WOE=ln(%Bad%Good),其中 % Good 和 % Bad 分别表示该类别中好客户和坏客户的比例。
- WOE 编码的值可以被解释为某一类别相对于整个样本的相对影响,正值表示该类别对好客户的影响更大,负值表示该类别对坏客户的影响更大。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)