关于数据清洗的一点补充
在数据的清洗中,首先是需要判断这个数据是脏数据,那么就会有以下几个问题:怎么知道这个数据是脏数据呢?知道这个数据是脏数据之后怎么处理呢?在上家公司里边,对于脏数据的判断,我们是做了可视化之后进行清晰地,也就是首先对数据进行解析,格式转化等,存入数据库中,然后做数据的webUI的展示。当数据展示出来之后,再去前端看那些数据不合适,然后想办法去避免这样的数据的出现,就会去清洗阶段进行优...
·
在数据的清洗中,首先是需要判断这个数据是脏数据,那么就会有以下几个问题:
怎么知道这个数据是脏数据呢?
知道这个数据是脏数据之后怎么处理呢?
在上家公司里边,对于脏数据的判断,我们是做了可视化之后进行清晰地,也就是首先对数据进行解析,格式转化等,存入数据库中,然后做数据的webUI的展示。
当数据展示出来之后,再去前端看那些数据不合适,然后想办法去避免这样的数据的出现,就会去清洗阶段进行优化。
那么优化之后,后边流进库里边的数据依然是干净数据,库里之前的脏数据还存在着,这个在前端展示的时候还会有影响,怎么办呢?答案是库里边的数据都是测试数据,那么测试数据就是非正式数据,是可以进行废弃的。
知道这个数据是脏数据怎么处理呢?
分情况进行处理,对于重复数据去除重复;对于不全的数据补全,对于错误数据进行纠正等,这个就需要根据业务以及数据的用途来定了。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)