Spark Streaming和Kafka集成深入浅出

Stella981
• 阅读 887

写在前面

本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理

本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理

一、概述

Spark  Streaming顾名思义是spark的流式处理框架,是面向海量数据实现高吞吐量、高可用的分布式实时计算。关于spark的安装可以参考Spark入门。Spark Streaming并非像Storm那样是真正的流式计算,两者的处理模型在根本上有很大不同:Storm每次处理一条消息,更多详细信息可参考JStorm基本概念介绍;而spark streaming每次处理的是一个时间窗口的数据流,类似于在一个短暂的时间间隔里处理一批数据。

    spark streaming实时接收输入数据流,并根据时间将数据流分成连续的多个batch,然后由Spark引擎一次处理一批数据,以批量生成最终结果流,工作流程图:

二、Spak Streaming

    2.1、Batch  Duration

    spark streaming的核心参数,设置流数据被分成多个batch的时间间隔,每个spark引擎处理的就是这个时间间隔内的数据。在Spark Streaming中,Job之间有可能存在依赖关系,所以后面的作业必须确保前面的作业执行完后才会被调度执行。如果批处理时间超过了batch duration,意味着数据处理速率跟不上数据接收速率,那么会导致后面正常的batch提交的作业无法按时执行,随着时间的推移,越来越多的作业被延迟执行,最后导致整个Streaming作业被阻塞,所以需要设置一个合理的批处理间隔以确保作业能够在这个批处理间隔内执行完成。

    application UI能详细了解到每个batch的提交时间、数据处理时间、延迟执行时间以及处理的数据条目数。

    虽然batchDuration的单位可以达到毫秒级别的,但是经验告诉我们,如果这个值过小将会导致因频繁提交作业从而给整个Streaming带来负担,所以请尽量不要将这个值设置为小于500ms。如果job执行的很快,而batchDuration设置的过长,依然会在上次提交作业间隔batchDuration后才提交下一个(数据流分隔机制决定的),这样spark集群会有大空闲期,集群资源没有被充分利用。spark streaming应用程序在首次启动时同样会间隔batchDuration才提交job(执行InputDStream.compute方法计算batch的RDD并提交作业)。

    2.2、DStream

    表示一系列时间序列上连续的RDDs,每一个RDDs代表一定时间间隔内到达的数据,这样就把连续的数据流拆成很多小的RDDs数据块(RDDs数据块内的数据是连续的数据)。可以通过实时数据创建DStream,也可以对现有的DStream进行transformation操作生成,例如map、window、reduceByKeyAndWindow等转换操作。

    在spark streaming运行期间,每个DStream都会定期生成一个RDDs,具体的是compute(time) 方法,生成的RDDs代表一个批次内的数据,作为提交job的输入元数据:

    在对DStream进行操作时,会被Spark Streaming引擎转化成对底层 RDD操作。

    foreachRDD:是一个转换输出操作符,它返回的不是RDD里的一行数据, 而是输出DStream后面的RDDs,表示一个批次中的一批数据,一个批次,只有一个RDDs。对于DirectKafkaInputDStream流返回的是KafkaRDD,需要注意的是该操作在运行spark streaming应用程序的driver进程里执行。

    2.3、InputDStream

InputDStream继承自DStream,是所有输入流的基类,代表从源接收到的原始数据流DStreams,每一个InputDStream关联到单个Receiver对象,从源数据接收数据并存储到spark内存,等待处理。每一个InputDStream接收到的是单个数据流数据。InputDStream在driver节点上从新数据生成RDDs;如果为了实现input stream在work节点上运行recvicer接收外部数据,需要继承ReceiverInputDStream类。InputDStream的start()、stop()方法,分别用于Spark Streaming系统启动和停止接收数据时调用。

三、kafka集成

    3.1、DirectKafkaInputDStream

    DirectKafkaInputDStream继承InputDStream,创建方法:

    Subscribe有三个参数:topic列表、consumer配置项、topic+partition起始offset,其中fromOffsets是可选的。

    driver会根据kafkaParams创建KafkaConsumer,用于Spark Streaming确定batch内的kafka数据(offset)范围。

    3.2、KafkaRDD

    Spark Streaming每隔一个时间间隔会调用InputDStream.compute方法创建KafkaRDD(在driver上执行),表示这个batch里接收到的kafka数据,然后在提交作业时作为stream job的输入。KafkaRDD extends RDD,实现了compute方法,用于计数一个分区里的数据、返回KafkaRDDIterator迭代器,迭代器内部next方法调用consumer.get,从kafka拉取数据.   

    job运行时调用KafkaRDD.compute方法从kafka读取数据,也就是实际get操作发生在task中。

    KafkaRDD是一个包括topic、partition、fromeOffset、untilOffset等的数据结构;ConsumerRecord是kafka client的api。

    3.3、offset初始化

    Spark Streaming在启动时先调用Subscribe.onStart方法,初始化KafkaConsumer,这个Consumer对象是在driver中用于获取offset。如果fromOffsets不为空,kafkaConsumer就seek到指定的offset,然后再调用positon获取offset.

    如果fromOffsets是空,即没有seek,当用consumer.position方法时,返回的offset取决于auto.offset.reset配置:earliest,获取partition最早的offset;latest获取partition最近的offset。

    3.4、latestOffset

    spark Streaming的内部逻辑,上一个job的untilOffset成为下一个job的fromOffset。latestOffset函数计算untilOffset,核心计算思想是先consumer.seekToEnd,然后position函数就可以取得当前最后offset:

 四、offset管理

    enable.auto.commit参数必须设置false,因为在自动commit的情况下,可能在一个batch内的数据还没有处理完、或者处理失败,但offset就自动提交了,就会导致数据丢失。下面是在zk中管理offset的思路,zk简单方便而且保证了可用性。

    在spark Streaming作业开始时,readOffsets函数用于从zk读取上次应用保存的最后处理的消息偏移量,有以下两种不同处理场景:

    1、Spark Streaming应用程序首次运行时,从zk read不到数据,那么就创建一个KafkaConsumer对象,用consumer.position的方式获取offset,这时获取到的offset取决于auto.offset.reset参数的设置

2、如果是重启Spark Streaming应用程序,那可以直接从zk读取到应用上次保存的offset

    在完成kafka DStream处理后,调用persistOffsets方法持久化保存分区的偏移量

整体过程伪代码:

    五、反压

    如果在一个batch内收到的消息比较多,这就需要为executor分配更多内存,可能会导致其他spark streaming应用程序资源分配不足,甚至有OOM的风险。特别是第一次启动应用程序,从earliest offset消费数据时,kafka保留的历史消息越多,数据处理时间也就越长。反压可以限制每个batch接收到的消息量,降低数据倾斜的风险,开启反压:

SparkConf.set("spark.streaming.backpressure.enabled", "true")

设置每个kafka partition读取消息的最大速率:

SparkConf.set("spark.streaming.kafka.maxRatePerPartition", "spark.streaming.kafka.maxRatePerPartition")

这个值要结合spark Streaming处理消息的速率和batchDuration,尽量保证读取的每个partition数据在batchDuration时间内处理完,这个参数需要不断调整,以做到尽可能高的吞吐量.

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
6个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这