字节跳动-电商-20250601

一面 50分钟

  1. 自我介绍
  2. 你学过的大数据掌握的最好的是哪一个
  3. hive里面排序一般怎么使用的
  4. hive内部表和外部表的区别,外部表在什么场景下使用
  5. hive视图用过吗
  6. 你对维度和事实的理解
  7. 你说到了业务过程,谈谈对它的理解
  8. 你刚刚描述的是一个业务过程还是 多个业务过程
  9. 多个业务过程放到一张事实表的你举个例子
  10. 维度建模中 星型模型和雪花模型 之间的区别
  11. 缓慢变化维表如何处理呢
  12. 全量表的数据保存多久
  13. 那你们订单表是全量还是增量,你觉得增量是什么意思,那你们这边的数据保存多久呢
  14. 说一下订单表的设计过程 以及 表的分区含义
  15. 你前面提到了会进行维度退化,那么说一下订单表中有哪些维度退化属性
  16. 那你说一下你们数仓的一个全链路吧
  17. 我看你项目还写了一个实时的,你这个在哪看的
  18. 那说一下flink乱序事件处理的几种方式吧
  19. 抖音有一张流量表和一张交易表,分别是 table_a(mid, pv) 和 table_b(mid, gmv),如何将他们进行合并,数据倾斜如何处理
  20. 你想做什么方向

二面 35分钟

  1. 自我介绍
  2. 讲一下你的项目吧
  3. 挑一个你做的需求讲一下,你遇到的难点是什么
  4. 你知道维度建模的过程吗
  5. 你平时用什么语言多一点,回答java,然后问了一个string stringBuilder stringBuffer的区别
  6. HDFS写的流程,要是有一个datanode挂了怎么办
  7. kafka是如何保证数据不丢失和数据不重复,然后又说消费的时候呢
  8. spark的shuffle的过程
  9. 你可以对shuffle进行优化吗
  10. SQL题:table_a(date, uid, vid) 找出3月19号看不同视频数排名前五的uid 【最好不用distinct】
  11. 三面 leader 45分钟
  12. 自我介绍
  13. 一直在聊数仓项目 (建模基础,以及业务理解)
  14. 刷了一道算法题,主要就是 1-a 2-b ... 26-z,那么给你一个数值的字符串,问有多少中编码的方案,比如“12”,返回2(最后我没写出来,但是给出了动态规划的想法)

hr面 15分钟

  1. 自我介绍
  2. 你遇到过最大的问题是什么
  3. 你什么时候能来实习,实习多久(建议回答:立马入职,一直实习)
  4. ~~~还有一些常规的问题不记得了~~~

整体总结

一面基本全是业务,二面就是项目八股文都有一点,三面基本就是项目

数仓的面试还是比较偏向业务的和偏向数仓建模理论的,可能手撕算法比较少


中电惠安

  1. 自我介绍
  2. 介绍离线项目框架
  3. 建立离线数仓遇到过哪些问题,怎么解决的
  4. 离线数仓有做了哪些优化吗
  5. 数据量有多大
  6. 做过实时数仓,简单说一下整体的架构
  7. flume熟悉吗
  8. 说一说你对kafka的了解
  9. flink的算子和作用
  10. 说说flink如何解决乱序的(我说flink实时处理比spark streaming好,能解决乱序问题)
  11. 有遇到过什么问题吗
  12. 有做过哪些优化
  13. 能说说hbase吗(我说我们将维度表数据写入到hbase,他顺着向下问了)
  14. hadoop写流程
  15. 你所在的部门组成是如何的
    有做用户画像,图片识别和人工智能。和公安等部门合作,帮助他们识别嫌疑犯的

中软国际(华为外包)

一面

  1. 之前公司的日活,数据量。保存周期。
  2. 半年前的sql当时能正常跑,现在跑不了,有哪些原因。
  3. hive小文件的优化,hive资源可以调哪些。
  4. Spark的核心。
  5. Spark会产生的shuffle算了。
  6. Spark如果有需求会产生shuffle,怎么避免,或者换种方式实现。
  7. Spark的持久化。
  8. Sparkstreaming和Flink的区别。
  9. Flink的水印机制。
  10. Flink的窗口。
  11. Flink的重启策略。
  12. Flink的分区策略。

中软国际(华为外包)

一面

  1. 自我介绍
  2. 实时用的什么?Flink
  3. 说一下JVM的结构,用的一些框架
  4. 说一下HashSet的去重原理
  5. Flink job的提交流程
  6. 窗口说一下(时间/事件)说一下区别
  7. 滑动/滚动窗口的应用
  8. Flink SQL了解吗知道底层是怎么封装的吗
  9. 说一下流批一体
  10. Flink平时遇到的问题
  11. 状态知道吗
  12. checkpoint机制、作用、具体实现原理
  13. 用过哪些数据库
  14. 为什么要用flink
  15. Flink的常用算子有哪些

中软国际(华为外包)

一面

  1. 你能讲一下你们那边的需求是什么样子的,然后您那边开发的功能是什么样子的?承担的职责是什么样子?
  2. 你简单讲一下你们那边的flink架构
  3. Clickhouse的更新数据怎么考虑?数据的唯一性这块是怎么考虑的?
  4. clickhouse里面有没有做一些简单的聚合,还是只是说打宽不做聚合吗?你们clickhouse使用的并发度有多少?
  5. 你们flink有做聚合操作吗?聚合的粒度是多少?有做更长的聚合吗?几个小时?一天的指标?
  6. Flink你负责哪些指标的计算?举例?思路?做了多久?
  7. 你们公司做什么业务的?
  8. 你的工作年限?薪资?
  9. 采集用了什么技术?离线用了什么技术?你负责的是哪些?
  10. 原则指标和延伸指标是什么?
  11. 大数据的海量数据处理原理是?hive或者spark,flink为什么能够处理更大的数据?原理?
  12. hadoop相对mysql为什么可以做到分布式处理更大的数据量?
  13. flink sql 的join方式有哪几种?和流式的join区别?和批处理的join区别?它的join原理?怎么实现快速的join?
  14. 编程语言熟悉哪些?做过java开发吗?
  15. 你们做开发,离线和实时都是sql吗?为什么?4

中软国际

一面,技术主管电话面试

  1. 是否参与了架构搭建
  2. 说一下数仓搭建整个过程
  3. 说一下你在项目中扮演的角色?
  4. 说一下你在项目中遇到的困难,然后是怎么解决的?
  5. 讲一下维度建模过程
  6. Linux打印错误信息的命令
  7. hbase 的rowkey设计原则?
  8. 如何调优使得hbase读写更快?
  9. 你们每天导入数仓的数据量大概多大?
  10. 你们最大的表是什么表,数据量有多大?
  11. 你们使用hbase的时候使用过二级索引吗?
  12. 你们用的是开源的还是CDH的?
  13. 你们在写自定义函数的时候是写上函数还是下函数?(具体不太记得问什么了)
  14. 你之前薪资多少?
  15. 你期望多少薪资?
  16. 你是哪个学校毕业的,是全日制本科吗?

二面

  1. hive的优化有哪些?
  2. 数据量比较大多个join执行很慢,怎么处理?
  3. spark 了解吗?spark的核心是什么?
  4. spark action算子有哪些?transformation算子有哪些?
  5. 你期望薪资多少,我说19-24k

面试官:我这边给不了你这么多,最多给你18k, 我后续再根据你的情况跟我们同事反馈一下


Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐