数据预处理
本文主要介绍了常用的数据预处理方法,包括数据清洗、数据变换、数据集成、数据脱敏、数据规约、数据标注等。
·
数据预处理的必要性
数据清洗

缺失数据处理


冗余数据处理
冗余数据是指数据的重复或过剩,其表现形式为重复出现的数据或与特定数据分析任务无关的数据等。
重复过滤是条件过滤的一种特殊表现形式。
噪声数据处理

分箱

聚类

回归

数据变换
当原始数据的形态不符合目标算法的要求时,需要进行数据变换(Data Transformation)。
数据变换包括数据的大小变换和类型变换。
大小变换

类型变换

数据集成

内容集成
当目标数据集的结构与来源数据集的结构相同时,对来源数据集中的内容进行合并处理。
内容集成的前提是来源数据集中存在相同的结构或可通过变量映射等方式视为相同结构。
结构集成

数据脱敏

数据规约


数据标注


小结
除上述数据预处理方法外,还包括抽样、排序、拆分、离散化处理等。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)