Hadoop完整搭建过程(一):本地模式

Stella981
• 阅读 695

1 本地模式

本地模式是最简单的模式,所有模块都运行在一个JVM进程中,使用本地文件系统而不是HDFS

本地模式主要是用于本地开发过程中的运行调试用,下载后的Hadoop不需要设置默认就是本地模式。

2 准备工作

笔者喜欢把JDK放在/usr/local下,运行前请确保设置了JAVA_HOME,注意是在etc/hadoop/hadoop-env.sh中设置:

tar -zxvf openjdk-11+28_linux-x64_bin.tar.gz
sudo mv openjdk-11+28_linux-x64_bin /usr/local/java
sudo vim HADOOP/etc/hadoop/hadoop-env.sh # HADOOP为Hadoop安装目录
# 输入
export JAVA_HOME=/usr/local/java

3 使用

官网关于该模式没有太多的描述,只有一个使用默认配置文件作为输入,然后匹配正则表达式作为输出的简单例子:

# HADOOP表示Hadoop安装目录
mkdir input
cp HADOOP/etc/hadoop/*.xml input
HADOOP/bin/hadoop jar HADOOP/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar grep input output 'dfs[a-z.]+'
cat output/*

从下图的id可以看出是以本地模式工作的:

Hadoop完整搭建过程(一):本地模式

4 输出

输出文件夹output有两个文件:

Hadoop完整搭建过程(一):本地模式

  • _SUCCESS:是个空文件,表示运行成功
  • part-r-00000:输出结果文件,词数统计

part-r-00000结果如上图所示。

实际上本地模式不需要特别的处理,因为默认就是本地模式。

5 参考

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Stella981 Stella981
3年前
Hadoop完整搭建过程(三):完全分布模式(虚拟机)
1完全分布模式完全分布模式是比本地模式与伪分布模式更加复杂的模式,真正利用多台Linux主机来进行部署Hadoop,对集群进行规划,使得Hadoop各个模块分别部署在不同的多台机器上,这篇文章介绍的是通过三台虚拟机进行集群配置的方式,主要步骤为:准备虚拟机:准备虚拟机基本环境ipHost配置:手
Stella981 Stella981
3年前
Hadoop完整搭建过程(二):伪分布模式
1伪分布模式伪分布模式是运行在单个节点以及多个Java进程上的模式。相比起本地模式,需要进行更多配置文件的设置以及ssh、YARN相关设置。2Hadoop配置文件修改Hadoop安装目录下的三个配置文件:etc/hadoop/coresite.xmle
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Stella981 Stella981
3年前
Flink的分布式缓存
分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。
Wesley13 Wesley13
3年前
00_设计模式之语言选择
设计模式之语言选择设计模式简介背景设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结。设计模式(Designpattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的
Stella981 Stella981
3年前
Redis(1.5)Redis配置文件(4.0.14)
4.0.14常用配置bind127.0.0.1默认绑定本地,不写的话任何地址都可以访问protectedmodeyes    保护模式,如果没有设置bind配置地址,也没有设置任何密码,则只允许本地连接port6379        端口号6379timeout0
Stella981 Stella981
3年前
Pig安装及本地模式测试,体验
Pig是Apache的一个开源项目,用于简化MapReduce的开发。研究了一段时间,略有心得。系废话不多说,我们直接步入实际测试。 Pig的运行有两种模式,本地单击模式和集群模式。我目前只是测试学习,是为了检验Pig的运行流程以及学习语法,没必要使用分布式模式,分布式模式下也都是大同小异的。 我的环境:   1.系统:Ubuntu12.