spark数据清洗解决方案

qq_43193797

2558人浏览 · 2020-01-15 15:02:11

qq_43193797 · 2020-01-15 15:02:11 发布

数据倾斜的解决方案之小表join大表转为小表broadcast+map大表实现。
适用场景：在对RDD使用join类操作，或者是在Spark SQL中使用join语句时，
并且join操作中的一个RDD或表的数据量比较小（比如几百M或者一两G）。
实现原理：普通的join是会走shuffle过程的，而一旦shuffle，
就相当于会将相同key的数据拉取到一个shuffle read task中再进行join，此时就是reduce join。
但是如果一个RDD比较小，则可以采用广播小RDD全量数据+map算子来实现与join同样的效果，也就是map join，
将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量；
接着对另外一个RDD执行map类算子，在算子函数内，从Broadcast变量中获取较小RDD的全量数据，
与当前RDD的每一条数据按照连接key进行比对，如果连接key相同的话，那么就将两个RDD的数据用需要的方式连接起来。
此时不会发生shuffle操作，也就不会发生数据倾斜。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模