人工智能学习教程笔记-5:数据清洗
文章部分内容参考自https://captainbed.net文章目录数据清洗数据清洗概述常用手段缩放特征值清查数据清洗数据清洗概述数据对于算法来说,就好比石油对于汽车。但石油也是提炼于原油,需要花费很大的功夫进行开采、提炼。同样,作为一名机器学习工程师,大量的时间就要用于清洗数据,把最原始的数据清理为我们的算法模型可以直接用来训练的数据。常用手段简单介绍几个数据清洗手段:缩放特征值指缩小特征值的
·
文章部分内容参考自https://captainbed.net
数据清洗
数据清洗概述
数据对于算法来说,就好比石油对于汽车。但石油也是提炼于原油,需要花费很大的功夫进行开采、提炼。
同样,作为一名机器学习工程师,大量的时间就要用于清洗数据,把最原始的数据清理为我们的算法模型可以直接用来训练的数据。
常用手段
简单介绍几个数据清洗手段:
缩放特征值
指缩小特征值的范围,留下一些高价值的特征值,删除一些用处不是很大的特征值。其有点如下:
- 使梯度下降算法更加迅速地收敛
- 避免NaN陷阱(超出精度范围)
- 帮助模型为特征确定合适的权重
清查
简单来说就是手动检查一遍所有的数据,现实生活中的数据往往会有很多问题。例如:
- 遗漏值
例如,有人忘记为某个房屋的年龄输入值。 - 重复样本
例如,服务器错误地将同一条记录上传了两次。 - 不良标签。
例如,有人错误地将一颗橡树的图片标记为枫树。 - 不良特征值。
例如,有人输入了多余的位数
很多研究生干的都是这个事。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)