hadoop所有文章-最新hadoop相关文章汇总-第21页-HelloWorld开发者社区

•

4年前

1、Scala安装(1)解压文件ubuntu@Ubuntu:~$ sudo tar zxvf scala2.10.4.gz C /opt !(https://oscimg.oschina.net/oscnet/5fc13090fea3cd9b3e6829d482a1b5f43d9.png)(2) 环境变量配置ubunt

Stella981

•

4年前

Hadoop学习之路（二十三）MapReduce中的shuffle详解

概述1、MapReduce中，mapper阶段处理的数据如何传递给reducer阶段，是MapReduce框架中最关键的一个流程，这个流程就叫Shuffle2、Shuffle:数据混洗——（核心机制：数据分区，排序，局部聚合，缓存，拉取，再合并排序）3、具体来说：就是将MapTask输出的处理结果数据，按照Par

Stella981

•

4年前

Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)

!(https://oscimg.oschina.net/oscnet/8dd4c5471d48dd364a4763cda6a48d7af12.jpg)(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU3MzgwNT

Stella981

•

4年前

Flink简介

1. Flink的引入这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flin

Stella981

•

4年前

Hadoop框架：单服务下伪分布式集群搭建

本文源码：GitHub·点这里(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fcicadasmile%2Fbigdataparent)||GitEE·点这里(https://gitee.com/cicadasmile/bigdataparent

Stella981

•

4年前

Hadoop 气数已尽！逃离复杂性，拥抱云计算

!(https://oscimg.oschina.net/oscnet/355facaec00d46ee851ad87cfdfa754a.gif)作者|MattAsay，译者|杨志昂来源：高效开发运维导读：虽然大数据依然如日中天，但该领域曾经的领头羊Cloudera、Hortonworks和MapR三家公司最近步履

Stella981

•

4年前

Hadoop完整搭建过程（四）：完全分布模式（服务器）

1概述上一篇文章介绍了如何使用虚拟机搭建集群，到了这篇文章就是实战了，使用真实的三台不同服务器进行Hadoop集群的搭建。具体步骤其实与虚拟机的差不多，但是由于安全组以及端口等等一些列的问题，会与虚拟机有所不同，废话不多说，下面正式开始。2约定Master节点的ip用MasterIP表示，主机名用

Stella981

•

4年前

Hadoop案例（八）辅助排序和二次排序案例（GroupingComparator）

辅助排序和二次排序案例（GroupingComparator）1.需求有如下订单数据订单id商品id成交金额0000001Pdt\_01222.80000001Pdt\_0525.80000002Pdt\_03522.80000

Stella981

•

4年前

Hive性能优化（全面）

1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,

Stella981

•

4年前

Hadoop大数据生态系统及常用组件简介

过多年信息化建设，我们已经进入一个神奇的“大数据”时代，无论是在通讯社交过程中使用的微信、QQ、电话、短信，还是吃喝玩乐时的用到的团购、电商、移动支付，都不断产生海量信息数据，数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据，多大算大，100G算大么？如果是用来存储1080P的高清电影，也就是几部影片的容量。但是如果100G都