推荐
专栏
教程
课程
飞鹅
本次共找到72条
mapreduce
相关的信息
helloworld_61111513
•
2年前
大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序 八、PythonSpark集成开发环境 九、PythonSpark决策树二分类与多分类 十、PythonSpark支持向量机 十一
Stella981
•
3年前
Spark SQL重点知识总结
一、SparkSQL的概念理解SparkSQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。SparkSQL的特点:1、和SparkCore的无缝集成,可以在写整个RDD应用的时候,配
Stella981
•
3年前
MapReduce之Shuffle,自定义对象,排序已经Combiner
1\.Shuffle:MapReduce的计算模型主要分为三个阶段,Map,shuffle,Reduce。Map负责数据的过滤,将文件中的数据转化为键值对,Reduce负责合并将具有相同的键的值进行处理合并然后输出到HDFS。为了让Reduce可以并行处理map的结果,必须对Map的输出进行一定的排序和分割,然后交个Red
Stella981
•
3年前
Hive on Spark参数调优姿势小结
前言HiveonSpark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE7292提出。HiveonSpark的效率比onMR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些调优项。为了符合实际情况,Spark也采用onYARN部署方式来说明。!(https://imgcon
Stella981
•
3年前
MapReduce的自定义排序、分区和分组
自定义排序(WritableComparable)当写mr程序来处理文本时,经常会将处理后的信息封装到我们自定义的bean中,并将bean作为map输出的key来传输而mr程序会在处理数据的过程中(传输到reduce之前)对数据排序(如:map端生成的文件中的内容分区且区内有序)。操作:自定
Stella981
•
3年前
Apache Spark探秘:Spark Shuffle实现
ApacheSpark探秘:SparkShuffle实现博客分类:hadoopspark对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduceShuffle发展史以及Sp
Stella981
•
3年前
MapReduce中combine、partition、shuffle的作用是什么
概括:combine和partition都是函数。中间的步骤应该仅仅有shuffle!1.combinecombine分为map端和reduce端,作用是把同一个key的键值对合并在一起,能够自己定义的。combine函数把一个map函数产生的<key,value对(多个key,value)合并成一个新的<key2,value
Stella981
•
3年前
Hadoop框架:MapReduce基本原理和入门案例
本文源码:GitHub·点这里(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fcicadasmile%2Fbigdataparent)||GitEE·点这里(https://gitee.com/cicadasmile/bigdataparent
Stella981
•
3年前
Hive和SparkSQL:基于 Hadoop 的数据仓库工具
Hive前言Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,将类SQL语句转换为MapReduce任务执行。!image(https://oscimg.oschina.net/oscnet/3ca2e844a74c7004d3281eeec5
Stella981
•
3年前
Spark Streaming的优化之路——从Receiver到Direct模式
!(https://images.xiaozhuanlan.com/photo/2019/cafc8f4ba89da9b75bc4fb3aac6ff80d.jpg) _作者:个推数据研发工程师学长_1业务背景随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的
1
•••
5
6
7
8