数据预处理的必要性在这里插入图片描述

数据清洗

在这里插入图片描述

缺失数据处理

在这里插入图片描述
在这里插入图片描述

冗余数据处理

冗余数据是指数据的重复或过剩,其表现形式为重复出现的数据或与特定数据分析任务无关的数据等。
在这里插入图片描述
重复过滤是条件过滤的一种特殊表现形式。

噪声数据处理

在这里插入图片描述

分箱

在这里插入图片描述

聚类

在这里插入图片描述

回归

在这里插入图片描述

数据变换

当原始数据的形态不符合目标算法的要求时,需要进行数据变换(Data Transformation)。
数据变换包括数据的大小变换和类型变换。

大小变换

在这里插入图片描述

类型变换

在这里插入图片描述

数据集成

在这里插入图片描述

内容集成

当目标数据集的结构与来源数据集的结构相同时,对来源数据集中的内容进行合并处理。
内容集成的前提是来源数据集中存在相同的结构或可通过变量映射等方式视为相同结构。

结构集成

在这里插入图片描述

数据脱敏

在这里插入图片描述

数据规约

在这里插入图片描述
在这里插入图片描述

数据标注

在这里插入图片描述
在这里插入图片描述

小结

除上述数据预处理方法外,还包括抽样、排序、拆分、离散化处理等。
在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐