Hadoop完全分布式(集群)安装教程【图文并茂】

Stella981
• 阅读 590

一.所需软件

虚拟机:Vmware10.0.2.46408,通过百度可自行进行下载,也可通过http://pan.baidu.com/s/1eQtgi1k进行下载

Linux镜像:Centos,可通过下载ios进行安装系统,也可通过http://pan.baidu.com/s/1eQgoXQ6进行下载(该资源为我已经安装好之后的系统文件,解压缩后可通过打开CentOS.vmx来运行,用户名为root,密码为hadoop)

Hadoop版本: hadoop-1.1.2.tar.g,同样,即可自行下载,也可通过我的网盘进行下载http://pan.baidu.com/s/16L1eQ(版本可以自己选择,不同版本之间差异不是特别大,当然建议初学者选用和我相同的版本)

JDK版本:jdk-6u24-linux-i586.bin,JDK是Java运行所需的环境,由于是在虚拟机的Linux中安装Jdk,所以应该下载对应的系统的安装文件(而不是大家常用的windows下的安装文件),下载地址:http://pan.baidu.com/s/1dDq0sHr

其他软件(非必须,但建议使用,可以方便操作):Pietty,Winsap.其中Pietty是在windows平台下可以登录虚拟机的Linux系统(大家在使用虚拟机的时候,需要经常切换到windows环境中,而且如果是同时开3个虚拟机,切换起来很不方便,通过Pietty可以相当于windows下开启多个窗口,来控制不同的linux虚拟机)。Winsap是方便windows与虚拟机之间进行文件的传递http://pan.baidu.com/s/1hqxLMNq,http://pan.baidu.com/s/1ntwpDZb

二.配置网络

1、我采用的是虚拟机默认的模式,即仅主机模式(Host-only)。Vmvare安装好了之后,会在自己电脑网络适配器设置中多出两个连接Hadoop完全分布式(集群)安装教程【图文并茂】

Hadoop完全分布式(集群)安装教程【图文并茂】

2、右击VMnet1,选择Properties,配置IPV4,我用的是192.168.80.1(当然这个也是可以更改的,不一定要和我相同)

Hadoop完全分布式(集群)安装教程【图文并茂】

3、通过虚拟机打开安装之后的Linux系统,配置该Linux的网络设置(如果是通过我提供的网盘下载的,可以通过我下面介绍的方法来设置)

右击右上角的小电脑,Edit Conn...然后选中Edit(第一次打开可能还会有一个System的连接,删掉即可),按照下图同样配置该IPV4(选择静态的,其中Address可按照自己的来设置,但Gateway必须要和你之前设置的Vmnet1的IP地址相同)

Hadoop完全分布式(集群)安装教程【图文并茂】

Hadoop完全分布式(集群)安装教程【图文并茂】

4、配置好之后,打开终端,输入

service network restart

在windows下打开cmd命令,ping一下该虚拟机的IP地址,如果能ping通,代表已经配置好了。

由于我们是完全分布式的安装,我们准备使用三台虚拟机来构成这个集群,所以要开启三个虚拟机,每个虚拟机的网络都要进行设置,比如我的三个虚拟机的网络设置分别为:192.168.80.101,192.168.80.102,192.168.80.103

三.修改主机名

为啥要修改主机名?主机名类似于域名,比较容易记忆

1、如果以上配置好了之后,我们就可以最小化虚拟机了,然后通过Pietty来登录了。

打开软件之后,输入想要登录的IP地址(比如我想登录第一台虚拟机,对应输入192.168.80.101),其余不用修改,输入用户名密码之后即可登录

2、通过以下命令可以修改主机名为hadoop1,当然主机名也是可以按照自己的来修改

hostname hadoop1

但通过这种方式修改的,仅仅是当前会话生效,在关闭重新打开之后就会还原,所以我们还需要修改一个配置文件

vi /etc/sysconfig/network

修改成HOSTNAME=hadoop1,当然,对应到其他两台虚拟机,也可通过这种方式进行修改主机名。我修改之后的主机名分别为hadoop1,hadoop2,hadoop3

3、配置hosts文件,将主机名和IP绑定

vi /etc/hosts



127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.80.101  hadoop1
192.168.80.102  hadoop2
192.168.80.103  hadoop3

将主机名与IP地址对应起来。每个虚拟机都要进行绑定,不仅仅是绑定自己的IP和主机名,也要绑定另外两个,这个时候,就可以通过ping+主机名来互相ping通了。

四.关闭防火墙

关闭防火墙,并设置防火墙不自动开启

service iptables stop

chkconfig iptables off

五.配置SSH免密码登入

关于SSH免密码登入的原理在这就不多说,大家可以查阅一下资料。配置之后可以免密码连入其他的服务器(虚拟机),比如说hadoop1在连入hadoop2的时候就不需要输入密码。

1、通过cd进入root目录,运行命令,一直回车回车~ 

[root@hadoop1 ~]# ssh-keygen -t rsa

2、完成之后进入.ssh目录,复制pub中的内容到一个新的文件(文件名一定不能出错)

[root@hadoop1 .ssh]# cp id_rsa.pub authorized_keys

3、按照以上操作,对三个虚拟机都采用相同的操作,复制产生authorized_keys这个文件

4、这一步相当的关键,一定要操作对~将三个节点的authorized_keys的内容互相拷贝到对方的此文件中,然后就可以免密码彼此ssh连入了。注意:是每个节点的这个文件都要拷贝,操作完成之后三个节点的authorized_keys的内容应该是相同的。

Hadoop完全分布式(集群)安装教程【图文并茂】

5、验证

[root@hadoop1 .ssh]# ssh hadoop2

回车,然后输入yes,就可登入hadoop2了。

六.安装JDK和Hadoop

1、打开winsap软件,输入hostname,username,password

Hadoop完全分布式(集群)安装教程【图文并茂】

登录之后,左边是你的本地的资源,右边是登入的linux系统的目录,可以将下载好的jdk和hadoop安装包直接拖到右边的linux下,我在这将文件拖到root目录下的Downloads文件夹,当然大家也可以自己随意选择。

拷贝到linux之后,我们就可以通过pietty查看到这两个文件了。

2、进入usr目录,新建一个文件夹作为jdk和hadoop的安装目录,

[root@hadoop1 ~]# cd /usr
[root@hadoop1 usr]# mkdir lh
[root@hadoop1 usr]# cd lh

3、将安装包拷贝到该文件夹(当前目录)

[root@hadoop1 lh]# cp /root/Downloads/* .

4、安装jdk,首先要给予jdk安装包执行权限,然后通过“.”来进行安装

[root@hadoop1 lh]# chmod u+x jdk-6u24-linux-i586.bin
[root@hadoop1 lh]# ./jdk-6u24-linux-i586.bin

安装完成之后,目录下会多了一个文件夹,就是安装之后的jdk,这个文件夹名字有点长,不利于以后操作,所以我将其修改为jdk

[root@hadoop1 lh]# mv jdk1.6.0_24 jdk

5、安装hadoop,首先解压hadoop,然后将其文件夹名改为hadoop

[root@hadoop1 lh]# tar -xzvf hadoop-0.20.2.tar.gz
[root@hadoop1 lh]# mv hadoop-0.20.2 hadoop

6、【灰常关键】设置jdk和hadoop的环境变量,这个类似于windows下安装jdk,因为jdk的命令是位于bin目录下,所以我们需要执行的话需要进入到bin下,但如果设置了环境变量,在其他地方也可以执行。hadoop也是如此

vi一下profile文件,然后在空白处输入以下内容,当然目录也是要根据自己的实际情况来,不要直接照抄

[root@hadoop1 lh]# vi /etc/profile
export JAVA_HOME=/usr/lh/jdk
export HADOOP_HOME=/usr/lh/hadoop
export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

7、验证,输入以下命令

[root@hadoop1 lh]# hadoop version

如果能够打印出hadoop的版本,代表已经配置好了,就可以进行下一步了。同样,我们可以在其他的节点中安装jdk,但hadoop我们可以先不用再其他节点中安装,因为有很多配置文件需要配置,我们可以在一个节点配置好了之后复制到另外的节点,节省工作量。

七.修改hadoop配置文件

1、修改hadoop-env.sh,取掉export JAVA_HOME....前边的#,并且将值修改为你的jdk目录

<span style="white-space:pre">    </span>export JAVA_HOME=/usr/local/jdk/

2、修改core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://hadoop1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/lh/tmp</value>
    </property>  
</configuration>

其中第一个property的value应该修改成你对应的主机名的,比如说hdfs://hadoop1:9000,其中hadoop1为我准备用于作为namenode的主机名,9000是端口,一般不用修改

3、修改hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

4、修改mapred-site.xml

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>hadoop1:9001</value>
        <description>change your own hostname</description>
    </property>
</configuration>

5、修改masters和slaves文件(这一点不同于伪分布式)

[root@hadoop1 conf]# vi masters
hadoop1

masters中输入你作为namenode的节点,

[root@hadoop1 conf]# vi slaves
hadoop2
hadoop3

slaves中输入作为datanode的节点

6、复制hadoop到其他节点,不要忘记到其他节点验证一下hadoop有木有安装成功~

[root@hadoop1 lh]# scp -r ./hadoop hadoop2:/usr/lh
[root@hadoop1 lh]# scp -r ./hadoop hadoop3:/usr/lh

八.格式化 分布式文件系统

[root@hadoop1 lh]# hadoop namenode -format

每个节点都要进入此操作。

八.启动进程

<span style="font-family: Arial, Helvetica, sans-serif; font-size: 12px;"><span style="white-space:pre">    </span>[root@hadoop1 lh]# start-all.sh</span>

1、通过该命令启动,可能会需要你问你yes/no,果断yes如果没其他情况,会输出一堆信息,然后就启动成功了

2、检测进程启动情况

[root@hadoop1 lh]# jps
30543 Jps
26850 JobTracker
26785 SecondaryNameNode
26649 NameNode

在主节点输入jsp,如果看到这几个进程,代表你启动成功了~然后到另外的节点,输入jsp,会看到Datanode节点。就代表你这个安装已经搞定了。

好了,以上就是hadoop的完全分布式安装步骤~希望大家转载的时候注明出处!谢谢

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这