大数据面试真题_Z

中软国际（华为外包）

云图大数据

534人浏览 · 2025-06-25 16:52:55

云图大数据 · 2025-06-25 16:52:55 发布

字节跳动-电商-20250601

一面 50分钟

自我介绍
你学过的大数据掌握的最好的是哪一个
hive里面排序一般怎么使用的
hive内部表和外部表的区别，外部表在什么场景下使用
hive视图用过吗
你对维度和事实的理解
你说到了业务过程，谈谈对它的理解
你刚刚描述的是一个业务过程还是多个业务过程
多个业务过程放到一张事实表的你举个例子
维度建模中星型模型和雪花模型之间的区别
缓慢变化维表如何处理呢
全量表的数据保存多久
那你们订单表是全量还是增量，你觉得增量是什么意思，那你们这边的数据保存多久呢
说一下订单表的设计过程以及表的分区含义
你前面提到了会进行维度退化，那么说一下订单表中有哪些维度退化属性
那你说一下你们数仓的一个全链路吧
我看你项目还写了一个实时的，你这个在哪看的
那说一下flink乱序事件处理的几种方式吧
抖音有一张流量表和一张交易表，分别是 table_a(mid, pv) 和 table_b(mid, gmv)，如何将他们进行合并，数据倾斜如何处理
你想做什么方向

二面 35分钟

自我介绍
讲一下你的项目吧
挑一个你做的需求讲一下，你遇到的难点是什么
你知道维度建模的过程吗
你平时用什么语言多一点，回答java，然后问了一个string stringBuilder stringBuffer的区别
HDFS写的流程，要是有一个datanode挂了怎么办
kafka是如何保证数据不丢失和数据不重复，然后又说消费的时候呢
spark的shuffle的过程
你可以对shuffle进行优化吗
SQL题：table_a(date, uid, vid) 找出3月19号看不同视频数排名前五的uid 【最好不用distinct】
三面 leader 45分钟
自我介绍
一直在聊数仓项目（建模基础，以及业务理解）
刷了一道算法题，主要就是 1-a 2-b ... 26-z，那么给你一个数值的字符串，问有多少中编码的方案，比如“12”，返回2（最后我没写出来，但是给出了动态规划的想法）

hr面 15分钟

自我介绍
你遇到过最大的问题是什么
你什么时候能来实习，实习多久（建议回答：立马入职，一直实习）
~~~还有一些常规的问题不记得了~~~

整体总结

一面基本全是业务，二面就是项目八股文都有一点，三面基本就是项目

数仓的面试还是比较偏向业务的和偏向数仓建模理论的，可能手撕算法比较少

中电惠安

自我介绍
介绍离线项目框架
建立离线数仓遇到过哪些问题，怎么解决的
离线数仓有做了哪些优化吗
数据量有多大
做过实时数仓，简单说一下整体的架构
flume熟悉吗
说一说你对kafka的了解
flink的算子和作用
说说flink如何解决乱序的（我说flink实时处理比spark streaming好，能解决乱序问题）
有遇到过什么问题吗
有做过哪些优化
能说说hbase吗（我说我们将维度表数据写入到hbase，他顺着向下问了）
hadoop写流程
你所在的部门组成是如何的
有做用户画像，图片识别和人工智能。和公安等部门合作，帮助他们识别嫌疑犯的

中软国际（华为外包）

一面

之前公司的日活，数据量。保存周期。
半年前的sql当时能正常跑，现在跑不了，有哪些原因。
hive小文件的优化，hive资源可以调哪些。
Spark的核心。
Spark会产生的shuffle算了。
Spark如果有需求会产生shuffle，怎么避免，或者换种方式实现。
Spark的持久化。
Sparkstreaming和Flink的区别。
Flink的水印机制。
Flink的窗口。
Flink的重启策略。
Flink的分区策略。

中软国际（华为外包）

一面

自我介绍
实时用的什么？Flink
说一下JVM的结构，用的一些框架
说一下HashSet的去重原理
Flink job的提交流程
窗口说一下（时间/事件）说一下区别
滑动/滚动窗口的应用
Flink SQL了解吗知道底层是怎么封装的吗
说一下流批一体
Flink平时遇到的问题
状态知道吗
checkpoint机制、作用、具体实现原理
用过哪些数据库
为什么要用flink
Flink的常用算子有哪些

中软国际（华为外包）

一面

你能讲一下你们那边的需求是什么样子的，然后您那边开发的功能是什么样子的？承担的职责是什么样子？
你简单讲一下你们那边的flink架构
Clickhouse的更新数据怎么考虑？数据的唯一性这块是怎么考虑的？
clickhouse里面有没有做一些简单的聚合，还是只是说打宽不做聚合吗？你们clickhouse使用的并发度有多少？
你们flink有做聚合操作吗？聚合的粒度是多少？有做更长的聚合吗？几个小时？一天的指标？
Flink你负责哪些指标的计算？举例？思路？做了多久？
你们公司做什么业务的？
你的工作年限？薪资？
采集用了什么技术？离线用了什么技术？你负责的是哪些？
原则指标和延伸指标是什么？
大数据的海量数据处理原理是？hive或者spark,flink为什么能够处理更大的数据？原理？
hadoop相对mysql为什么可以做到分布式处理更大的数据量？
flink sql 的join方式有哪几种？和流式的join区别？和批处理的join区别？它的join原理？怎么实现快速的join？
编程语言熟悉哪些？做过java开发吗？
你们做开发，离线和实时都是sql吗？为什么?4

中软国际

一面，技术主管电话面试

是否参与了架构搭建
说一下数仓搭建整个过程
说一下你在项目中扮演的角色？
说一下你在项目中遇到的困难，然后是怎么解决的？
讲一下维度建模过程
Linux打印错误信息的命令
hbase 的rowkey设计原则？
如何调优使得hbase读写更快？
你们每天导入数仓的数据量大概多大？
你们最大的表是什么表，数据量有多大？
你们使用hbase的时候使用过二级索引吗？
你们用的是开源的还是CDH的？
你们在写自定义函数的时候是写上函数还是下函数？（具体不太记得问什么了）
你之前薪资多少？
你期望多少薪资？
你是哪个学校毕业的，是全日制本科吗？

二面

hive的优化有哪些？
数据量比较大多个join执行很慢，怎么处理？
spark 了解吗？spark的核心是什么？
spark action算子有哪些？transformation算子有哪些？
你期望薪资多少，我说19-24k

面试官：我这边给不了你这么多，最多给你18k, 我后续再根据你的情况跟我们同事反馈一下

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。