文章部分内容参考自https://captainbed.net

数据清洗

数据清洗概述

数据对于算法来说,就好比石油对于汽车。但石油也是提炼于原油,需要花费很大的功夫进行开采、提炼。

同样,作为一名机器学习工程师,大量的时间就要用于清洗数据,把最原始的数据清理为我们的算法模型可以直接用来训练的数据。

常用手段

简单介绍几个数据清洗手段:

缩放特征值

指缩小特征值的范围,留下一些高价值的特征值,删除一些用处不是很大的特征值。其有点如下:

  • 使梯度下降算法更加迅速地收敛
  • 避免NaN陷阱(超出精度范围)
  • 帮助模型为特征确定合适的权重

清查

简单来说就是手动检查一遍所有的数据,现实生活中的数据往往会有很多问题。例如:

  • 遗漏值
    例如,有人忘记为某个房屋的年龄输入值。
  • 重复样本
    例如,服务器错误地将同一条记录上传了两次。
  • 不良标签。
    例如,有人错误地将一颗橡树的图片标记为枫树。
  • 不良特征值。
    例如,有人输入了多余的位数

很多研究生干的都是这个事。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐