Wesley13 Wesley13
3年前
java spark list 转为 RDD 转为 dataset 写入表中
packagecom.example.demo;importjava.util.ArrayList;importjava.util.Arrays;importjava.util.HashMap;importjava.util.List;importjava.util.Map;
Stella981 Stella981
3年前
SQL on Hadoop性能对比-Hive、Spark SQL、Impala
1三种语言、三套工具、三个架构不了解SQLonHadoop三驾马车-Hive、SparkSQL、Impala吗?听小编慢慢道来1HiveApacheHive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本
Stella981 Stella981
3年前
Spark GraphX图算法应用【分区策略、PageRank、ConnectedComponents,TriangleCount】
一.分区策略  !(https://img2018.cnblogs.com/ibeta/1343081/201911/1343081201911271536266281023000587.png)  GraphX采用顶点分割的方式进行分布式图分区。GraphX不会沿着边划分图形,而是沿着顶点划分图形,这可以减少通信和存储的开
Easter79 Easter79
3年前
SQL on Hadoop性能对比-Hive、Spark SQL、Impala
1三种语言、三套工具、三个架构不了解SQLonHadoop三驾马车-Hive、SparkSQL、Impala吗?听小编慢慢道来1HiveApacheHive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本
Stella981 Stella981
3年前
JindoFS解析
作者:殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。2019年云栖大会上,EMRJindo的技术存储分离方案得到很大的关注,视频直达链接【云上大数据的一种高性能数据湖存储方案】(https://www.oschina.net/action/GoToLink?ur
Stella981 Stella981
3年前
Spark源码剖析(八):stage划分原理与源码剖析
引言对于Spark开发人员来说,了解stage的划分算法可以让你知道自己编写的sparkapplication被划分为几个job,每个job被划分为几个stage,每个stage包括了你的哪些代码,只有知道了这些之后,碰到某个stage执行特别慢或者报错,你才能快速定位到对应的代码,对其进行性能优化和排错。stage划分原理与源码
Stella981 Stella981
3年前
Spark Streaming 交互 Kafka的两种方式
一、SparkStreaming连Kafka(重点)方式一:Receiver方式连:走磁盘使用HighLevelAPI(高阶API)实现Offset自动管理,灵活性差,处理数据时,如果某一时刻数据量过大就会磁盘溢写,通过WALS(WriteAheadLogs)进行磁盘写入,0.10版本之后被舍弃,相当于一个人拿着一个水杯去接水,水龙头的
Stella981 Stella981
3年前
Hadoop、spark、SaaS、PaaS、IaaS、云计算概念区分?
背景一:世界需要更多的计算能力信息技术时代的基石是建立在“计算”之上的。以搜索引擎为例,早期的搜索引擎是人工分类索引的,类似黄页,但是随着网站数量的增多,人工索引的工作量变得巨大,而且更新时效低得难以忍受了。后来的一波搜索引擎都采用了由计算机算法自动索引,查找相关文档,并排序展示的方式。这种方式就导致了对计算能力的巨大需求,类似的趋势出现在多种技术领域,
Stella981 Stella981
3年前
Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别
Receiver是使用Kafka的高层次ConsumerAPI来实现的。Receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的,然后SparkStreaming启动的job会去处理那些数据。然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark