在数据的清洗中,首先是需要判断这个数据是脏数据,那么就会有以下几个问题:

怎么知道这个数据是脏数据呢?

知道这个数据是脏数据之后怎么处理呢?

在上家公司里边,对于脏数据的判断,我们是做了可视化之后进行清晰地,也就是首先对数据进行解析,格式转化等,存入数据库中,然后做数据的webUI的展示。

当数据展示出来之后,再去前端看那些数据不合适,然后想办法去避免这样的数据的出现,就会去清洗阶段进行优化。

那么优化之后,后边流进库里边的数据依然是干净数据,库里之前的脏数据还存在着,这个在前端展示的时候还会有影响,怎么办呢?答案是库里边的数据都是测试数据,那么测试数据就是非正式数据,是可以进行废弃的。

知道这个数据是脏数据怎么处理呢?

分情况进行处理,对于重复数据去除重复;对于不全的数据补全,对于错误数据进行纠正等,这个就需要根据业务以及数据的用途来定了。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐