spark数据清洗解决方案
·
数据倾斜的解决方案 之 小表join大表转为小表broadcast+map大表实现。
适用场景:在对RDD使用join类操作,或者是在Spark SQL中使用join语句时,
并且join操作中的一个RDD或表的数据量比较小(比如几百M或者一两G)。
实现原理:普通的join是会走shuffle过程的,而一旦shuffle,
就相当于会将相同key的数据拉取到一个shuffle read task中再进行join,此时就是reduce join。
但是如果一个RDD比较小,则可以采用广播小RDD全量数据+map算子来实现与join同样的效果,也就是map join,
将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来,然后对其创建一个Broadcast变量;
接着对另外一个RDD执行map类算子,在算子函数内,从Broadcast变量中获取较小RDD的全量数据,
与当前RDD的每一条数据按照连接key进行比对,如果连接key相同的话,那么就将两个RDD的数据用需要的方式连接起来。
此时不会发生shuffle操作,也就不会发生数据倾斜。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)