Wesley13 Wesley13
3年前
java实现spark常用算子之cogroup
importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.VoidF
Stella981 Stella981
3年前
Spark 1.6.0 源码精读
Spark1.6.0一般程序的入口都是这个步骤,ConfigContextSpark也不例外,先从入口开始SparkConf:Spark应用程序的配置/   SparkConf.scala        Configuration for a Spark applicatio
Stella981 Stella981
3年前
Spark Cache源代码分析
1\.sparkcache原理Task运行的时候是要去获取Parent的RDD对应的Partition的数据的,即它会调用RDD的iterator方法把对应的Partition的数据集给遍历出来,具体流程如下图:!在这里插入图片描述(https://imgblog.csdnimg.cn/20200724165519878.pn
Stella981 Stella981
3年前
Spark机器学习算法
Spark是一个大规模的数据处理引擎,集成了SQL查询分析,该引擎是用Scala写的,所以一些高级的实现了的算法都是用它进行描述。已知支持的第三方语言有:C【https://github.com/Microsoft/Mobius,Java,Scala,Python,R【http://spark.apache.org】一般性理解:Spark
Stella981 Stella981
3年前
Spark2.4.0源码——RpcEnv
参考《Spark内核设计的艺术:架构设计与实现——耿嘉安》NettyRpcEnv概述 Spark的NettyRpc环境的一些重要组件:privatenettyvaltransportConfSparkTransportConf.fromSparkConf(...)privat
Stella981 Stella981
3年前
Spark 核心篇
本章内容:1、功能描述本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext,注释的第一句话就是说Spar
Stella981 Stella981
3年前
Spark源码剖析
4. Hadoop相关配置及Executor环境变量的设置4.1 Hadoop相关配置信息默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下:!(https://oscimg.oschina.net/
Stella981 Stella981
3年前
Kafka源码系列之Broker的IO服务及业务处理
Kafka源码系列之Broker的IO服务及业务处理一,kafka角色Kafka源码系列主要是以kafka0.8.2.2源码为例。以看spark等源码的经验总结除了一个重要的看源码的思路:先了解部件角色和功能角色,然后逐个功能请求序列画图分析,最后再汇总。那么,下面再啰嗦一下,kafka的角色。kafka在生产中的使用,如下
Stella981 Stella981
3年前
Spark 之SparkContext 源码精读3
书接上文(http://my.oschina.net/corleone/blog/652484),SparkContext的CoarseGrainedSchedulerBackend已创建完毕,并且Driver也可以通过DriverEndpoint发消息了。让咱们再回到CoarseGrainedSchedulerBackend的子类,SparkDep
3A网络 3A网络
2年前
5 步教你将 MRS 数据导入 DWS
5步教你将MRS数据导入DWSMapReduce服务(MapReduceService,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive/Spark组件保存。Hive/Spark的数据