大数据面试真题_Z
中软国际(华为外包)
·
字节跳动-电商-20250601
一面 50分钟
- 自我介绍
- 你学过的大数据掌握的最好的是哪一个
- hive里面排序一般怎么使用的
- hive内部表和外部表的区别,外部表在什么场景下使用
- hive视图用过吗
- 你对维度和事实的理解
- 你说到了业务过程,谈谈对它的理解
- 你刚刚描述的是一个业务过程还是 多个业务过程
- 多个业务过程放到一张事实表的你举个例子
- 维度建模中 星型模型和雪花模型 之间的区别
- 缓慢变化维表如何处理呢
- 全量表的数据保存多久
- 那你们订单表是全量还是增量,你觉得增量是什么意思,那你们这边的数据保存多久呢
- 说一下订单表的设计过程 以及 表的分区含义
- 你前面提到了会进行维度退化,那么说一下订单表中有哪些维度退化属性
- 那你说一下你们数仓的一个全链路吧
- 我看你项目还写了一个实时的,你这个在哪看的
- 那说一下flink乱序事件处理的几种方式吧
- 抖音有一张流量表和一张交易表,分别是 table_a(mid, pv) 和 table_b(mid, gmv),如何将他们进行合并,数据倾斜如何处理
- 你想做什么方向
二面 35分钟
- 自我介绍
- 讲一下你的项目吧
- 挑一个你做的需求讲一下,你遇到的难点是什么
- 你知道维度建模的过程吗
- 你平时用什么语言多一点,回答java,然后问了一个string stringBuilder stringBuffer的区别
- HDFS写的流程,要是有一个datanode挂了怎么办
- kafka是如何保证数据不丢失和数据不重复,然后又说消费的时候呢
- spark的shuffle的过程
- 你可以对shuffle进行优化吗
- SQL题:table_a(date, uid, vid) 找出3月19号看不同视频数排名前五的uid 【最好不用distinct】
- 三面 leader 45分钟
- 自我介绍
- 一直在聊数仓项目 (建模基础,以及业务理解)
- 刷了一道算法题,主要就是 1-a 2-b ... 26-z,那么给你一个数值的字符串,问有多少中编码的方案,比如“12”,返回2(最后我没写出来,但是给出了动态规划的想法)
hr面 15分钟
- 自我介绍
- 你遇到过最大的问题是什么
- 你什么时候能来实习,实习多久(建议回答:立马入职,一直实习)
- ~~~还有一些常规的问题不记得了~~~
整体总结
一面基本全是业务,二面就是项目八股文都有一点,三面基本就是项目
数仓的面试还是比较偏向业务的和偏向数仓建模理论的,可能手撕算法比较少
中电惠安
- 自我介绍
- 介绍离线项目框架
- 建立离线数仓遇到过哪些问题,怎么解决的
- 离线数仓有做了哪些优化吗
- 数据量有多大
- 做过实时数仓,简单说一下整体的架构
- flume熟悉吗
- 说一说你对kafka的了解
- flink的算子和作用
- 说说flink如何解决乱序的(我说flink实时处理比spark streaming好,能解决乱序问题)
- 有遇到过什么问题吗
- 有做过哪些优化
- 能说说hbase吗(我说我们将维度表数据写入到hbase,他顺着向下问了)
- hadoop写流程
- 你所在的部门组成是如何的
有做用户画像,图片识别和人工智能。和公安等部门合作,帮助他们识别嫌疑犯的
中软国际(华为外包)
一面
- 之前公司的日活,数据量。保存周期。
- 半年前的sql当时能正常跑,现在跑不了,有哪些原因。
- hive小文件的优化,hive资源可以调哪些。
- Spark的核心。
- Spark会产生的shuffle算了。
- Spark如果有需求会产生shuffle,怎么避免,或者换种方式实现。
- Spark的持久化。
- Sparkstreaming和Flink的区别。
- Flink的水印机制。
- Flink的窗口。
- Flink的重启策略。
- Flink的分区策略。
中软国际(华为外包)
一面
- 自我介绍
- 实时用的什么?Flink
- 说一下JVM的结构,用的一些框架
- 说一下HashSet的去重原理
- Flink job的提交流程
- 窗口说一下(时间/事件)说一下区别
- 滑动/滚动窗口的应用
- Flink SQL了解吗知道底层是怎么封装的吗
- 说一下流批一体
- Flink平时遇到的问题
- 状态知道吗
- checkpoint机制、作用、具体实现原理
- 用过哪些数据库
- 为什么要用flink
- Flink的常用算子有哪些
中软国际(华为外包)
一面
- 你能讲一下你们那边的需求是什么样子的,然后您那边开发的功能是什么样子的?承担的职责是什么样子?
- 你简单讲一下你们那边的flink架构
- Clickhouse的更新数据怎么考虑?数据的唯一性这块是怎么考虑的?
- clickhouse里面有没有做一些简单的聚合,还是只是说打宽不做聚合吗?你们clickhouse使用的并发度有多少?
- 你们flink有做聚合操作吗?聚合的粒度是多少?有做更长的聚合吗?几个小时?一天的指标?
- Flink你负责哪些指标的计算?举例?思路?做了多久?
- 你们公司做什么业务的?
- 你的工作年限?薪资?
- 采集用了什么技术?离线用了什么技术?你负责的是哪些?
- 原则指标和延伸指标是什么?
- 大数据的海量数据处理原理是?hive或者spark,flink为什么能够处理更大的数据?原理?
- hadoop相对mysql为什么可以做到分布式处理更大的数据量?
- flink sql 的join方式有哪几种?和流式的join区别?和批处理的join区别?它的join原理?怎么实现快速的join?
- 编程语言熟悉哪些?做过java开发吗?
- 你们做开发,离线和实时都是sql吗?为什么?4
中软国际
一面,技术主管电话面试
- 是否参与了架构搭建
- 说一下数仓搭建整个过程
- 说一下你在项目中扮演的角色?
- 说一下你在项目中遇到的困难,然后是怎么解决的?
- 讲一下维度建模过程
- Linux打印错误信息的命令
- hbase 的rowkey设计原则?
- 如何调优使得hbase读写更快?
- 你们每天导入数仓的数据量大概多大?
- 你们最大的表是什么表,数据量有多大?
- 你们使用hbase的时候使用过二级索引吗?
- 你们用的是开源的还是CDH的?
- 你们在写自定义函数的时候是写上函数还是下函数?(具体不太记得问什么了)
- 你之前薪资多少?
- 你期望多少薪资?
- 你是哪个学校毕业的,是全日制本科吗?
二面
- hive的优化有哪些?
- 数据量比较大多个join执行很慢,怎么处理?
- spark 了解吗?spark的核心是什么?
- spark action算子有哪些?transformation算子有哪些?
- 你期望薪资多少,我说19-24k
面试官:我这边给不了你这么多,最多给你18k, 我后续再根据你的情况跟我们同事反馈一下

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)