数据挖掘--数据预处理
数据清理缺失值如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。更复杂的方法,可以将其转换为分类问题或数值预测问题噪声数据识别出噪音将其去除 -- 比如孤立点的识别利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填
·
数据清理
缺失值
- 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
- 更复杂的方法,可以将其转换为分类问题或数值预测问题
噪声数据
- 识别出噪音将其去除 -- 比如孤立点的识别
- 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。
数据集成
冗余和相关分析
标称数据的x^2相关检验
数值数据的协方差
数据归约
- 维归约:减少所考虑的随机变量或属性的个数
- 数量归约:用替代的、较小的数据表示形式替换原数据
- 数据压缩:使用变换,以便得到原数据的归约或“压缩”表示

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)