Stella981 Stella981
3年前
Spark on Hive & Hive on Spark,傻傻分不清楚
!(https://oscimg.oschina.net/oscnet/6d5972fad7cb5d1185a9d1fbec61bc47446.jpg)(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU3MzgwNT
Stella981 Stella981
3年前
Spark Transformations之mapPartitions
mapPartitions(func)Similartomap,butrunsseparatelyoneachpartition(block)oftheRDD,sofuncmustbeoftypeIterator<TIterator<UwhenrunningonanRDDoftypeT.
Stella981 Stella981
3年前
Spark Connector Reader 原理与实践
!nebulasparkconnectorreader(https://wwwcdn.nebulagraph.com.cn/nebulablog/Draft/nebulasparkconnectorreader.png)本文主要讲述如何利用SparkConnector进行NebulaGraph数据的读取。Spark
Stella981 Stella981
3年前
Spark RPC通讯机制
Spark1.6推出了RPCEnv,RPCEndpoint,RPCEndpointRef为核心的新型架构下的RPC通信方式。早期版本当中,有netty和Akka两种实现方式。但是从最新的2.11代码来看,Akka已经找不到了。关于netty的更多知识,可以查看之前的文章。RpcEndpoint和RpcEndpointRef有一个管理者:RpcEnv。
Stella981 Stella981
3年前
Spark 核心篇
本章内容:1、功能描述本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext,注释的第一句话就是说Spar
Stella981 Stella981
3年前
SPARK中文峰会(二)上海会场预告|Ray On Spark
本周六下午,上海会场的讲师已经准备就绪~SPARKAISUMMIT2020中文精华版线上峰会,十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。除Databricks、Facebook、阿里巴巴、Intel、领英等一线厂商的经典应用场景外,还有Ray、SQL、StructuredStreamin
Stella981 Stella981
3年前
Hadoop,Spark和Storm
Hadoop,Spark和Storm博客分类:分布式计算大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读
Stella981 Stella981
3年前
Inflation 引起的 MetaSpace Full GC 问题排查|蚂蚁集团案例分析
1背景本文将用一个蚂蚁集团线上实际案例,分享我们是如何排查由于inflation引起的MetaSpaceFGC问题。蚂蚁集团的智能监控平台深度利用了Spark的能力进行多维度数据聚合,Spark由于其高效、易用、分布式的能力在大数据处理中十分受欢迎。关于智能监控的计算能力相关介绍,可以参考