推荐
专栏
教程
课程
飞鹅
本次共找到162条
spark
相关的信息
Stella981
•
3年前
Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
简介:阿里巴巴高级技术专家李呈祥带来了《ApacheSpark最新技术发展和3.0展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark3.0即将重磅发布的新功能。2019阿里云峰会·上海开发者大会于7月24日盛大开幕,在本次峰会的开源大数据专场上,阿里巴巴高级技术专家李呈祥带
Stella981
•
3年前
Mac部署spark2.4.4
环境信息1.操作系统:macOSMojave10.14.62.JDK:1.8.0\_211(安装位置:/Library/Java/JavaVirtualMachines/jdk1.8.0\_211.jdk/Contents/Home)前提条件请参考《Mac部署hadoop3(伪分布式)》(https://www
Stella981
•
3年前
Spark Cache源代码分析
1\.sparkcache原理Task运行的时候是要去获取Parent的RDD对应的Partition的数据的,即它会调用RDD的iterator方法把对应的Partition的数据集给遍历出来,具体流程如下图:!在这里插入图片描述(https://imgblog.csdnimg.cn/20200724165519878.pn
Stella981
•
3年前
Hadoop+Spark分布式集群环境搭建
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,而Spark是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。下面使用在同一个局域网下的两台电脑搭建分布式计算的环境: 其中JDK、Hadoop、Spark都已经在两台电脑上安装好。 一台Ubuntu主机系统Master,IP地址假设为:192.168.1.101(i
Stella981
•
3年前
Kylin使用Spark构建Cube
ApacheKylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是单机安装采坑记,直接上配置和问题解决。找一台干净的机器,把hadoophivehbase从原有节点分别拷贝一
Stella981
•
3年前
Spark 二次排序
遇到这样的场景,有一个文本里的字段是:日期,名字,数据。需要对名字和日期进行排序,大概的思路就是先将名字排序(其实准确来说是分组),再将日期排序。可以使用下面的方案。文本605370582021505150546051代码importorg.
Stella981
•
3年前
Apache Spark 3.0 GraphX编程指南
学习地址:https://spark.apache.org/docs/latest/graphxprogrammingguide.html(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fgraphxprogr
Stella981
•
3年前
Spark如何进行动态资源分配
一、操作场景对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务,若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而
Stella981
•
3年前
Spark常见问题汇总
注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了1、Operationcatego
1
•••
6
7
8
•••
17