推荐
专栏
教程
课程
飞鹅
本次共找到230条
hadoop
相关的信息
陈占占
•
3年前
Xshell6 安装Hadoop与JDK以及环境变量
一.安装JDK以及环境变量1.进入Xshell6,连接虚拟机,把普通用户改成root用户2.cd到根目录,然后再cd到usr/local文件夹中3.创建app文件夹4.进入app文件夹,安装一个rz上传文件组件yumyinstalllrzsz和安装vim编辑器yumyinstallvim5.(cd到usr/local文件
Wesley13
•
3年前
5步教你将MRS数据导入DWS
摘要:GaussDB(DWS)支持在相同网络中,配置一个GaussDB(DWS)集群连接到一个MRS集群,然后将数据从HDFS中的文件读取到GaussDB(DWS)。MapReduce服务(MapReduceService,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据
Stella981
•
3年前
Flink(一)Flink的入门简介
一. Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布
Stella981
•
3年前
Hadoop兮,杀鸡别用牛刀,python+shell实现一般日志文件的查询、统计
简单的日志统计是不需要使用重量级的Hadoop,我用python实现了日志的统计。原理是用fabric登录到远程linux,组合使用grep、uniq、sort、awk对日志进行操作,可以根据正则表达式指定规则抽取符合规则的日志,做查询,计数,分类统计。注意:要安装fabric(https://www.oschina.net/action/GoToL
Stella981
•
3年前
Hadoop学习之路(二十三)MapReduce中的shuffle详解
概述1、MapReduce中,mapper阶段处理的数据如何传递给reducer阶段,是MapReduce框架中最关键的一个流程,这个流程就叫Shuffle2、Shuffle:数据混洗——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并排序)3、具体来说:就是将MapTask输出的处理结果数据,按照Par
Wesley13
•
3年前
2017上
2017上总结2017年过去一半了,这半年自己也做了蛮多事。这些天把这半年的一些东西理了理。 这半年时间主要在学三个方面linux,python,java(hadoop) Linux方面的学习: “工欲善其事必先利其器”深入的学习了vim编辑器用法 对linux系统底层服务(servi
Stella981
•
3年前
Hive 和普通关系数据库的异同
1.查询语言。由于SQL被广泛的应用在数据仓库中,因此,专门针对Hive的特性设计了类SQL的查询语言HQL。熟悉SQL开发的开发者可以很方便的使用Hive进行开发。2.数据存储位置。Hive是建立在Hadoop之上的,所有Hive的数据都是存储在HDFS(https://www.oschina.net/act
Stella981
•
3年前
Hadoop完全分布式(集群)安装教程【图文并茂】
一.所需软件虚拟机:Vmware10.0.2.46408,通过百度可自行进行下载,也可通过http://pan.baidu.com/s/1eQtgi1k进行下载Linux镜像:Centos,可通过下载ios进行安装系统,也可通过http://pan.baidu.com/s/1eQgoXQ6进行下载(该资源为我已经安装好之
Wesley13
•
3年前
MAPREDUCER学习笔记
MAPREDUCE基本原理 一,概念理解 1,Mapreduce是一个分布式运算程序的编程架构,相对于HDFS来说就是客户端。其核心功能就是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个hadoop集群上。 2,基本整体架构:MEAppMaster,MapTask,R
Wesley13
•
3年前
Java面试之Zookeeper
157\.zookeeper是什么?zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是googlechubby的开源实现,是hadoop和hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。158\.zook
1
•••
19
20
21
•••
23