spark所有文章-最新spark相关文章汇总-第7页-HelloWorld开发者社区

•

4年前

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

简介：阿里巴巴高级技术专家李呈祥带来了《ApacheSpark最新技术发展和3.0展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark3.0即将重磅发布的新功能。2019阿里云峰会·上海开发者大会于7月24日盛大开幕，在本次峰会的开源大数据专场上，阿里巴巴高级技术专家李呈祥带

Stella981

•

4年前

Mac部署spark2.4.4

环境信息1.操作系统：macOSMojave10.14.62.JDK：1.8.0\_211(安装位置：/Library/Java/JavaVirtualMachines/jdk1.8.0\_211.jdk/Contents/Home)前提条件请参考《Mac部署hadoop3(伪分布式)》(https://www

Stella981

•

4年前

Spark Transformations之mapPartitions

mapPartitions(func)Similartomap,butrunsseparatelyoneachpartition(block)oftheRDD,sofuncmustbeoftypeIterator<TIterator<UwhenrunningonanRDDoftypeT.

Stella981

•

4年前

Spark Cache源代码分析

1\.sparkcache原理Task运行的时候是要去获取Parent的RDD对应的Partition的数据的，即它会调用RDD的iterator方法把对应的Partition的数据集给遍历出来，具体流程如下图：!在这里插入图片描述(https://imgblog.csdnimg.cn/20200724165519878.pn

Stella981

•

4年前

Spark RPC通讯机制

Spark1.6推出了RPCEnv，RPCEndpoint，RPCEndpointRef为核心的新型架构下的RPC通信方式。早期版本当中，有netty和Akka两种实现方式。但是从最新的2.11代码来看，Akka已经找不到了。关于netty的更多知识，可以查看之前的文章。RpcEndpoint和RpcEndpointRef有一个管理者：RpcEnv。

Stella981

•

4年前

Hadoop+Spark分布式集群环境搭建

　　Hadoop是一个能够让用户轻松架构和使用的分布式计算平台，而Spark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。下面使用在同一个局域网下的两台电脑搭建分布式计算的环境：　　其中JDK、Hadoop、Spark都已经在两台电脑上安装好。　　一台Ubuntu主机系统Master，IP地址假设为：192.168.1.101（i

Stella981

•

4年前

Kylin使用Spark构建Cube

ApacheKylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是单机安装采坑记，直接上配置和问题解决。找一台干净的机器，把hadoophivehbase从原有节点分别拷贝一

Stella981

•

4年前

Spark如何进行动态资源分配

一、操作场景对于Spark应用来说，资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务，若分配给它多个Executor，可是却没有任何任务分配给它，而此时有其他的应用却资源紧张，这就造成了很大的资源浪费和资源不合理的调度。动态资源调度就是为了解决这种场景，根据当前应用任务的负载情况，实时的增减Executor个数，从而

Stella981

•

4年前

Spark常见问题汇总

注意：如果Driver写好了代码，eclipse或者程序上传后，没有开始处理数据，或者快速结束任务，也没有在控制台中打印错误，那么请进入spark的web页面，查看一下你的任务，找到每个分区日志的stderr，查看是否有错误，一般情况下一旦驱动提交了，报错的情况只能在任务日志里面查看是否有错误情况了1、Operationcatego