spark源码分析所有文章-最新spark源码分析相关文章汇总-HelloWorld开发者社区

•

4年前

importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.VoidF

Stella981

•

4年前

Spark 1.6.0 源码精读

Spark1.6.0一般程序的入口都是这个步骤，ConfigContextSpark也不例外，先从入口开始SparkConf：Spark应用程序的配置/ SparkConf.scala Configuration for a Spark applicatio

Stella981

•

4年前

Spark Cache源代码分析

1\.sparkcache原理Task运行的时候是要去获取Parent的RDD对应的Partition的数据的，即它会调用RDD的iterator方法把对应的Partition的数据集给遍历出来，具体流程如下图：!在这里插入图片描述(https://imgblog.csdnimg.cn/20200724165519878.pn

Stella981

•

4年前

Spark机器学习算法

Spark是一个大规模的数据处理引擎，集成了SQL查询分析，该引擎是用Scala写的，所以一些高级的实现了的算法都是用它进行描述。已知支持的第三方语言有：C【https://github.com/Microsoft/Mobius，Java,Scala,Python,R【http://spark.apache.org】一般性理解：Spark

Stella981

•

4年前

Spark2.4.0源码——RpcEnv

参考《Spark内核设计的艺术：架构设计与实现——耿嘉安》NettyRpcEnv概述 Spark的NettyRpc环境的一些重要组件：privatenettyvaltransportConfSparkTransportConf.fromSparkConf(...)privat

Stella981

•

4年前

Spark 核心篇

本章内容：1、功能描述本篇文章就要根据源码分析SparkContext所做的一些事情，用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类，足以说明SparkContext的重要性；这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext，注释的第一句话就是说Spar

Stella981

•

4年前

Spark源码剖析

4. Hadoop相关配置及Executor环境变量的设置4.1 Hadoop相关配置信息默认情况下，Spark使用HDFS作为分布式文件系统，所以需要获取Hadoop相关配置信息的代码如下：!(https://oscimg.oschina.net/

Stella981

•

4年前

Kafka源码系列之Broker的IO服务及业务处理

Kafka源码系列之Broker的IO服务及业务处理一，kafka角色Kafka源码系列主要是以kafka0.8.2.2源码为例。以看spark等源码的经验总结除了一个重要的看源码的思路：先了解部件角色和功能角色，然后逐个功能请求序列画图分析，最后再汇总。那么，下面再啰嗦一下，kafka的角色。kafka在生产中的使用，如下

Stella981

•

4年前

Spark 之SparkContext 源码精读3

书接上文(http://my.oschina.net/corleone/blog/652484)，SparkContext的CoarseGrainedSchedulerBackend已创建完毕，并且Driver也可以通过DriverEndpoint发消息了。让咱们再回到CoarseGrainedSchedulerBackend的子类，SparkDep

3A网络

•

3年前

5 步教你将 MRS 数据导入 DWS

5步教你将MRS数据导入DWSMapReduce服务（MapReduceService，简称MRS）是一个基于开源Hadoop生态环境而运行的大数据集群，对外提供大容量数据的存储和分析能力，可解决用户的数据存储和处理需求。用户可以将海量业务数据，存储在MRS的分析集群，即使用Hive/Spark组件保存。Hive/Spark的数据