mapreduce所有文章-最新mapreduce相关文章汇总-第6页-HelloWorld开发者社区

•

3年前

课程安排一、大数据概述二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境九、PythonSpark决策树二分类与多分类十、PythonSpark支持向量机十一

Stella981

•

4年前

Spark SQL重点知识总结

一、SparkSQL的概念理解SparkSQL是spark套件中一个模板，它将数据的计算任务通过SQL的形式转换成了RDD的计算，类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。SparkSQL的特点：1、和SparkCore的无缝集成，可以在写整个RDD应用的时候，配

Stella981

•

4年前

MapReduce之Shuffle，自定义对象，排序已经Combiner

1\.Shuffle：MapReduce的计算模型主要分为三个阶段，Map，shuffle，Reduce。Map负责数据的过滤，将文件中的数据转化为键值对，Reduce负责合并将具有相同的键的值进行处理合并然后输出到HDFS。为了让Reduce可以并行处理map的结果，必须对Map的输出进行一定的排序和分割，然后交个Red

Stella981

•

4年前

Hive on Spark参数调优姿势小结

前言HiveonSpark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE7292提出。HiveonSpark的效率比onMR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些调优项。为了符合实际情况，Spark也采用onYARN部署方式来说明。!(https://imgcon

Stella981

•

4年前

MapReduce的自定义排序、分区和分组

自定义排序（WritableComparable）当写mr程序来处理文本时，经常会将处理后的信息封装到我们自定义的bean中，并将bean作为map输出的key来传输而mr程序会在处理数据的过程中（传输到reduce之前）对数据排序（如：map端生成的文件中的内容分区且区内有序）。操作：自定

Stella981

•

4年前

Apache Spark探秘：Spark Shuffle实现

ApacheSpark探秘：SparkShuffle实现博客分类：hadoopspark对于大数据计算框架而言，Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现，并将之与MapReduce进行简单对比。本文的介绍顺序是：shuffle基本概念，MapReduceShuffle发展史以及Sp

Stella981

•

4年前

Hadoop框架：MapReduce基本原理和入门案例

本文源码：GitHub·点这里(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fcicadasmile%2Fbigdataparent)||GitEE·点这里(https://gitee.com/cicadasmile/bigdataparent

Stella981

•

4年前

Spark Streaming的优化之路——从Receiver到Direct模式

!(https://images.xiaozhuanlan.com/photo/2019/cafc8f4ba89da9b75bc4fb3aac6ff80d.jpg) _作者：个推数据研发工程师学长_1业务背景随着大数据的快速发展，业务场景越来越复杂，离线式的批处理框架MapReduce已经不能满足业务，大量的

京东云开发者

•

1年前

Hive引擎底层初探

1、什么是HiveHive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL)，使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务，以在Hadoop集群上执

京东云开发者

•

9个月前

Hive引擎底层初探

作者：京东物流沈世莹1、什么是HiveHive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL)，使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务，以在