spark所有文章-最新spark相关文章汇总-第12页-HelloWorld开发者社区

•

4年前

packagecom.example.demo;importjava.util.ArrayList;importjava.util.Arrays;importjava.util.HashMap;importjava.util.List;importjava.util.Map;

Stella981

•

4年前

SQL on Hadoop性能对比－Hive、Spark SQL、Impala

1三种语言、三套工具、三个架构不了解SQLonHadoop三驾马车－Hive、SparkSQL、Impala吗？听小编慢慢道来1HiveApacheHive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本

Easter79

•

4年前

SQL on Hadoop性能对比－Hive、Spark SQL、Impala

1三种语言、三套工具、三个架构不了解SQLonHadoop三驾马车－Hive、SparkSQL、Impala吗？听小编慢慢道来1HiveApacheHive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本

Stella981

•

4年前

JindoFS解析

作者：殳鑫鑫，花名辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。2019年云栖大会上，EMRJindo的技术存储分离方案得到很大的关注，视频直达链接【云上大数据的一种高性能数据湖存储方案】(https://www.oschina.net/action/GoToLink?ur

Stella981

•

4年前

Hadoop、spark、SaaS、PaaS、IaaS、云计算概念区分？

背景一：世界需要更多的计算能力信息技术时代的基石是建立在“计算”之上的。以搜索引擎为例，早期的搜索引擎是人工分类索引的，类似黄页，但是随着网站数量的增多，人工索引的工作量变得巨大，而且更新时效低得难以忍受了。后来的一波搜索引擎都采用了由计算机算法自动索引，查找相关文档，并排序展示的方式。这种方式就导致了对计算能力的巨大需求，类似的趋势出现在多种技术领域，

Stella981

•

4年前

Spark Streaming 交互 Kafka的两种方式

一、SparkStreaming连Kafka（重点）方式一：Receiver方式连：走磁盘使用HighLevelAPI（高阶API）实现Offset自动管理，灵活性差，处理数据时，如果某一时刻数据量过大就会磁盘溢写，通过WALS（WriteAheadLogs）进行磁盘写入,0.10版本之后被舍弃,相当于一个人拿着一个水杯去接水，水龙头的

Stella981

•

4年前

Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别

Receiver是使用Kafka的高层次ConsumerAPI来实现的。Receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的，然后SparkStreaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark

Stella981

•

4年前

Clickhouse v18编译记录

简介ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库，是面向OLAP的分布式列式DBMS，圈内人戏称为“喀秋莎数据库”。ClickHouse有一个简称"CK"，与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级，其特点：列式存

京东云开发者

•

1年前

Apache顶级项目ShardingSphere — SQL Parser的设计与实现

导语：SQL作为现代计算机行业的数据处理事实标准，是目前最重要的数据处理接口之一，从传统的DBMS(如MySQL、Oracle)，到主流的计算框架（如spark，flink）都提供了SQL的解析引擎，因此想对sql进行精细化的操作，一定离不开SQLPars