Wesley13 Wesley13
3年前
Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD
http://blog.csdn.net/pipisorry/article/details/53257188(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fblog.csdn.net%2Fpipisorry%2Farticle%2Fdetails%2F53257188)弹性分布
Stella981 Stella981
3年前
Spark SQL重点知识总结
一、SparkSQL的概念理解SparkSQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。SparkSQL的特点:1、和SparkCore的无缝集成,可以在写整个RDD应用的时候,配
Stella981 Stella981
3年前
Spark RDD工作原理详解+RDD JAVA API编程
第1章RDD概念1.1RDD为什么会产生   RDD:ResilientDistributedDataset弹性分布式数据集RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢?
Stella981 Stella981
3年前
SparkSQL查询程序的两种方法,及其对比
import包:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.types.{IntegerType,StringType,StructField,StructTyp
Stella981 Stella981
3年前
Spark Cache源代码分析
1\.sparkcache原理Task运行的时候是要去获取Parent的RDD对应的Partition的数据的,即它会调用RDD的iterator方法把对应的Partition的数据集给遍历出来,具体流程如下图:!在这里插入图片描述(https://imgblog.csdnimg.cn/20200724165519878.pn
Stella981 Stella981
3年前
Spark RDD操作之Map系算子
  本篇博客将介绍SparkRDD的Map系算子的基本用法。  1、map    map将RDD的元素一个个传入call方法,经过call方法的计算之后,逐个返回,生成新的RDD,计算之后,记录数不会缩减。示例代码,将每个数字加10之后再打印出来, 代码如下importjava.util.Arrays;im
Stella981 Stella981
3年前
Spark scala和java的api使用
1、利用scala语言开发spark的worcount程序(本地运行)packagecom.zy.sparkimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}//todo:利用s
Stella981 Stella981
3年前
Spark RDD操作之ReduceByKey
一、reduceByKey作用    reduceByKey将RDD中所有K,V对中,K值相同的V进行合并,而这个合并,仅仅根据用户传入的函数来进行,下面是wordcount的例子。importjava.util.Arrays;importjava.util.List;importorg.apache.sp
Stella981 Stella981
3年前
Spark学习之路 (十七)Spark分区
一、分区的概念  分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。二、为什么要进行分区  数据分区,在分布式
Stella981 Stella981
3年前
SparkStreaming DStream相关操作
DStream的相关操作:DStream上的操作与RDD的类似,分为以下两种:1.Transformations(转换)2.OutputOperations(输出)/Action1.1Transformations