一、数仓为什么分层、怎么分层

1、数仓的作用

2、数仓的架构

3、数据采集层

4、数据存储与分析

 

 对于hive的操作,最传统的方式是采用MapReduce

也可以通过SparkSQL操作hive

最常用的是使用Presto操作Hive

5、数仓分层的好处,为什么要对其进行分层

对数据仓库有一定的要求

高效率:不同的粒度

高质量:数据清洗、ETL加工,在各层进行数据治理,避免用户做出错误决策

高扩展性:存算能力、支持组件式业务扩展能力,不能重建数据仓库【数据建模的合理性】

避免整个数据仓库都需要变更,影响ETL过程

6、为什么要对数仓分层

 原因:大量预处理提高效率,增强可扩展性,分布完成操作,简化业务

二、描述DWD层的设计思路

1、分层的举例

ODS

DWD:数据主题层/数据标准化

DWS

ADS

更多的是五层结构或更多

2、数据标准层的作用

用于数据治理

3、DWD的设计思路,数据模型如何建模

4、业务流程举例

三、拉链表为什么要进行分区,分区的目的是什么

四、介绍一下每一层的设计思路,并举个例子

五、框架原理、基础少、有时考hive的函数

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐