推荐
专栏
教程
课程
飞鹅
本次共找到162条
spark
相关的信息
Stella981
•
3年前
Spark SQL重点知识总结
一、SparkSQL的概念理解SparkSQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。SparkSQL的特点:1、和SparkCore的无缝集成,可以在写整个RDD应用的时候,配
Stella981
•
3年前
Spark DataFrame列的合并与拆分
版本说明:Spark2.3.0使用SparkSQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。1DataFrame列数据的合并例如:我们有如下数据,想要将三列数据合并为一列,并以“,”分割
Stella981
•
3年前
Spark RDD操作之Map系算子
本篇博客将介绍SparkRDD的Map系算子的基本用法。 1、map map将RDD的元素一个个传入call方法,经过call方法的计算之后,逐个返回,生成新的RDD,计算之后,记录数不会缩减。示例代码,将每个数字加10之后再打印出来, 代码如下importjava.util.Arrays;im
Stella981
•
3年前
Spark Shuffle之Tungsten Sort Shuffle
源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正。原文链接https://github.com/jacksu/utils4s/blob/master/sparkknowledge/md/tungstensortshuffle.md(https://www.oschina.net/action/GoToLink?urlhtt
Stella981
•
3年前
Spark SQL快速入门系列之Hive
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/e06da860dad1494799951bb8689a5ab1.jpg)!(https://oscimg.oschina.net/oscnet/5ab4ea4586bc4172
Stella981
•
3年前
Spark 之SparkContext 源码精读3
书接上文(http://my.oschina.net/corleone/blog/652484),SparkContext的CoarseGrainedSchedulerBackend已创建完毕,并且Driver也可以通过DriverEndpoint发消息了。让咱们再回到CoarseGrainedSchedulerBackend的子类,SparkDep
1
•••
8
9
10
•••
17