Stella981 Stella981
3年前
Spark1.6.0 on Hadoop2.6.0单机伪分布式安装
1、Scala安装(1)解压文件ubuntu@Ubuntu:~$ sudo tar zxvf scala2.10.4.gz C /opt !(https://oscimg.oschina.net/oscnet/5fc13090fea3cd9b3e6829d482a1b5f43d9.png)(2) 环境变量配置ubunt
Stella981 Stella981
3年前
Hadoop学习之路(二十三)MapReduce中的shuffle详解
概述1、MapReduce中,mapper阶段处理的数据如何传递给reducer阶段,是MapReduce框架中最关键的一个流程,这个流程就叫Shuffle2、Shuffle:数据混洗——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并排序)3、具体来说:就是将MapTask输出的处理结果数据,按照Par
Stella981 Stella981
3年前
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
!(https://oscimg.oschina.net/oscnet/8dd4c5471d48dd364a4763cda6a48d7af12.jpg)(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU3MzgwNT
Stella981 Stella981
3年前
Flink简介
1. Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flin
Stella981 Stella981
3年前
Hadoop框架:单服务下伪分布式集群搭建
本文源码:GitHub·点这里(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fcicadasmile%2Fbigdataparent)||GitEE·点这里(https://gitee.com/cicadasmile/bigdataparent
Stella981 Stella981
3年前
Hadoop 气数已尽!逃离复杂性,拥抱云计算
!(https://oscimg.oschina.net/oscnet/355facaec00d46ee851ad87cfdfa754a.gif)作者|MattAsay,译者|杨志昂来源:高效开发运维导读:虽然大数据依然如日中天,但该领域曾经的领头羊Cloudera、Hortonworks和MapR三家公司最近步履
Stella981 Stella981
3年前
Hadoop完整搭建过程(四):完全分布模式(服务器)
1概述上一篇文章介绍了如何使用虚拟机搭建集群,到了这篇文章就是实战了,使用真实的三台不同服务器进行Hadoop集群的搭建。具体步骤其实与虚拟机的差不多,但是由于安全组以及端口等等一些列的问题,会与虚拟机有所不同,废话不多说,下面正式开始。2约定Master节点的ip用MasterIP表示,主机名用
Stella981 Stella981
3年前
Hadoop案例(八)辅助排序和二次排序案例(GroupingComparator)
辅助排序和二次排序案例(GroupingComparator)1.需求有如下订单数据订单id商品id成交金额0000001Pdt\_01222.80000001Pdt\_0525.80000002Pdt\_03522.80000
Stella981 Stella981
3年前
Hive性能优化(全面)
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,
Stella981 Stella981
3年前
Hadoop大数据生态系统及常用组件简介
过多年信息化建设,我们已经进入一个神奇的“大数据”时代,无论是在通讯社交过程中使用的微信、QQ、电话、短信,还是吃喝玩乐时的用到的团购、电商、移动支付,都不断产生海量信息数据,数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据,多大算大,100G算大么?如果是用来存储1080P的高清电影,也就是几部影片的容量。但是如果100G都