hive
1:hive是怎么产生的?
2:hive的框架是怎么样的?
3:hive 执行流程是什么?
4:hive sql是如何把sql语句一步一步到最后执行的?
5:hive sql任务常用参数调优做过什么? spark
6:spark 是怎么产生的?
7:spark 框架是怎么样的?
8: spark的DAG是什么?
9:spark中的app,job,stage,task是什么?有什么好处?
10:spark的RDD是什么?与dataframe有什么区别?
11:spark 执行流程是什么?
12:spark sql是如何把sql语句一步一步到最后执行的?
13:spark 与mapreduce的区别是什么?
14: spark的反压原理是什么?主动还是被动? flink
14:flink是怎么产生的?
15:flink的框架是怎么样的?
16:flink 的内存模型说一说?
17:flink的cp ,sp说一说原理,有什么区别?你们是怎么设置cp的相关参数?
18:flink的四个图是什么?分别都是什么环节对应什么图?
19:flink反压机制,你是如何理解的?你是如何定位、并有什么方案解决?与spark的反压有什么区别?
20:flink的barrier对齐和非对齐是怎么理解的?
21:flink的精准一次和至少一次是怎么理解的?
22:flink任务消费或者写入kafka时,并行度不一致有什么问题?
23:flink如何保证数据一致性?
24:flink对于kafka新增分区时,消费有什么问题吗?
25:flink消费kafka的offset是怎么维护的?自动提交?
26:flink任务如何设置TM,JM的并行度?
27:flink任务做过什么调优?
28:flink任务大状态时做过什么优化?
29:你们用flink做过实时数仓吗?你们的上下游的环境都是什么?全链路时效是多少?