数据处理基本流程
处理流程数据抽取抽取mysql中的数据到hive仓库ods层静态分区动态分区全量数据增量数据数据分区根据数据抽取的日期分区根据业务日期进行分区数据清洗数据分析实时数据处理大数据可视化抽取流程创建hive数据表编写spark程序创
处理流程
数据抽取
抽取mysql中的数据到hive仓库ods层
静态分区
动态分区
全量数据
增量数据
数据分区
根据数据抽取的日期分区
根据业务日期进行分区
数据清洗
数据分析
实时数据处理
大数据可视化
抽取流程
创建hive数据表
编写spark程序
创建spark项目
创建一个scala项目 基于maven原形
修改依赖版本号
修改build插件
添加spark依赖
spark-core
spark-sql
mysql-connctor-
创建sparkSession
连接到mysql指定customer表 得到一个DF
把数据抽取到hive二中
1.可以创建临时表
执行HQL进行插入操作
2.直接使用API写入到hive里
连接到hive
spark-submit --master local[] --class 类名 jar包地址
读取mysql数据
执行插入语句 将数据插入到hive表中

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)