hive 、spark 、flink之想一想

京东云开发者
• 阅读 240

hive

1:hive是怎么产生的?

2:hive的框架是怎么样的?

3:hive 执行流程是什么?

4:hive sql是如何把sql语句一步一步到最后执行的?

5:hive sql任务常用参数调优做过什么? spark

6:spark 是怎么产生的?

7:spark 框架是怎么样的?

8: spark的DAG是什么?

9:spark中的app,job,stage,task是什么?有什么好处?

10:spark的RDD是什么?与dataframe有什么区别?

11:spark 执行流程是什么?

12:spark sql是如何把sql语句一步一步到最后执行的?

13:spark 与mapreduce的区别是什么?

14: spark的反压原理是什么?主动还是被动? flink

14:flink是怎么产生的?

15:flink的框架是怎么样的?

16:flink 的内存模型说一说?

17:flink的cp ,sp说一说原理,有什么区别?你们是怎么设置cp的相关参数?

18:flink的四个图是什么?分别都是什么环节对应什么图?

19:flink反压机制,你是如何理解的?你是如何定位、并有什么方案解决?与spark的反压有什么区别?

20:flink的barrier对齐和非对齐是怎么理解的?

21:flink的精准一次和至少一次是怎么理解的?

22:flink任务消费或者写入kafka时,并行度不一致有什么问题?

23:flink如何保证数据一致性?

24:flink对于kafka新增分区时,消费有什么问题吗?

25:flink消费kafka的offset是怎么维护的?自动提交?

26:flink任务如何设置TM,JM的并行度?

27:flink任务做过什么调优?

28:flink任务大状态时做过什么优化?

29:你们用flink做过实时数仓吗?你们的上下游的环境都是什么?全链路时效是多少?

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
Spark 配置连接hive 元数据库(mysql)
Spark连接hive元数据库(mysql)方法一:1)打开Hivemetastoreroot@head42~hiveservicemetastore&netstatano|grep9083???2)开启spark连接Mysq
Stella981 Stella981
3年前
Hive on spark下insert overwrite partition慢的优化
  Hive版本:2.1.1,Spark版本是1.6.0  这几天发现insertoverwritepartition运行的很慢,看了下是hiveonspark引擎,这引擎平时比mapreduce快多了,但是怎么今天感觉比mapreduce慢了好几倍,运行了1h多还没运行完。  将SQL拿来手动hivef文件.sql执行
Stella981 Stella981
3年前
Spark SQL重点知识总结
一、SparkSQL的概念理解SparkSQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。SparkSQL的特点:1、和SparkCore的无缝集成,可以在写整个RDD应用的时候,配
Stella981 Stella981
3年前
Hive SQL使用过程中的奇怪现象
hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。HiveSQL是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在
Stella981 Stella981
3年前
Hive on Spark参数调优姿势小结
前言HiveonSpark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE7292提出。HiveonSpark的效率比onMR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些调优项。为了符合实际情况,Spark也采用onYARN部署方式来说明。!(https://imgcon
Stella981 Stella981
3年前
Flink 1.11 与 Hive 批流一体数仓实践
导读:Flink从1.9.0开始提供与Hive集成的功能,随着几个版本的迭代,在最新的Flink1.11中,与Hive集成的功能进一步深化,并且开始尝试将流计算场景与Hive进行整合。本文主要分享在Flink1.11中对接Hive的新特性,以及如何利用Flink对Hive数仓进行实时化改造,从而实现批流
Stella981 Stella981
3年前
Hive和SparkSQL:基于 Hadoop 的数据仓库工具
Hive前言Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,将类SQL语句转换为MapReduce任务执行。!image(https://oscimg.oschina.net/oscnet/3ca2e844a74c7004d3281eeec5
3A网络 3A网络
2年前
5 步教你将 MRS 数据导入 DWS
5步教你将MRS数据导入DWSMapReduce服务(MapReduceService,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive/Spark组件保存。Hive/Spark的数据
京东云开发者 京东云开发者
10个月前
《Hive编程指南》读书笔记
前言:最近刚接触写HiveSQL,却发现许多查询的执行速度远不如预期。为了提升查询效率,我去阅读了《Hive编程指南》,希望通过理解其底层机制来找到优化的方式,并为未来能编写出高效的SQL奠定基础。谨以此文做个记录。一、Hive因何而生先有Hadoop再有
京东云开发者 京东云开发者
1星期前
《Hive编程指南》读书笔记
作者:CHO体系马壮前言:最近刚接触写HiveSQL,却发现许多查询的执行速度远不如预期。为了提升查询效率,我去阅读了《Hive编程指南》,希望通过理解其底层机制来找到优化的方式,并为未来能编写出高效的SQL奠定基础。谨以此文做个记录。一、Hive因何而生