Wesley13 Wesley13
3年前
HDFS安装
最近内部需求,要求我把数据上传HDFS,顺便分享一下如何安装并查看HDFS文件目录我是在ubuntu(14.04.2)上安装的:1.我安装ubuntu用的不是Hadoop用户,所以要新建一个Hadoop用户  $ sudouseradd\mhadoops/bin/bash设置密码$sudo
Wesley13 Wesley13
3年前
Ubuntu16.04下安装Hive
 上一篇博客我们已经说过了要如何安装Hadoop,别忘记了我们的目的是安装Hive。所以这篇博客,我就来介绍一下如何安装Hive。一、环境准备(1)Vmware (2) Ubuntu16.04 (3) Hadoop二、安装Hive (1)mysqlserver和mysqlclient的下载  $suhadoop
Wesley13 Wesley13
3年前
2021年最新版大数据面试题全面总结
更新内容和时间表大数据基础篇Part0:Java基础篇Part1:Java高级篇Part2:Java之JVM篇Part3:NIO和Netty篇Part4:分布式理论篇框架篇Part5:Hadoop之MapReducePart6:Hadoop
Stella981 Stella981
3年前
Hadoop MapReduce执行过程详解(带hadoop例子)
分析MapReduce执行过程MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图:!image
Stella981 Stella981
3年前
Scala编程实战
项目概述需求目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。Spark的RPC是通过Akka类库实现的,Akka用
Stella981 Stella981
3年前
Hadoop源代码分析(包hadoop.mapred中的MapReduce接口)
前面已经完成了对org.apache.hadoop.mapreduce的分析,这个包提供了HadoopMapReduce部分的应用API,用于用户实现自己的MapReduce应用。但这些接口是给未来的MapReduce应用的,目前MapReduce框架还是使用老系统(参考补丁HADOOP1230(https://www.oschina.net/act
Wesley13 Wesley13
3年前
(二)大数据生态圈集群搭建之
搭建流程说明下载安装包高可用完全分布式搭建一.集群规划二.hadoop安装配置三.zookeeper安装配置四.集群格式化五.启动,操作,关闭集群六.访问NameNode的WebUI页面七.搭建Hadoop的client说明
Stella981 Stella981
3年前
HADOOP 文件系统 之 AbstractFileSystem
抽象类publicabstractclassAbstractFileSystem{}位置:org.apache.hadoop.fs.AbstractFileSystem_ThisclassprovidesaninterfaceforimplementorsofaHadoopfilesystem(analogou
Stella981 Stella981
3年前
HBase 启动后HMaster进程自动消失
原因分析1、hadoop与hbase版本不兼容,导致的异常。2、log日志信息显示org.apache.hadoop.hbase.TableExistsException:hbase:namespace异常,可能是更换了hbase的版本后zookeeper还保留着上一次的hbase设置,造成了冲突。解决方案1、
京东云开发者 京东云开发者
7个月前
Hive引擎底层初探
1、什么是HiveHive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL),使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务,以在Hadoop集群上执