Hadoop 2.2.0集群搭建

194次阅读

没有评论

共计 9585 个字符，预计需要花费 24 分钟才能阅读完成。

一、环境说明

1、虚拟机平台：VMware10

2、Linux 版本：Ubuntu-12.04.3-desktop-i386

3、JDK：jdk1.7.0_51

4、Hadoop 版本：2.2.0

5、集群节点：3 个，分别是 hadoopMaster，hadoopSlave1，hadoopSlave2

注明：文中 linuxidc 是虚拟机用户名。

————————————– 分割线 ————————————–

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop LZO 安装教程 http://www.linuxidc.com/Linux/2013-01/78397.htm

Hadoop 集群上使用 Lzo 压缩 http://www.linuxidc.com/Linux/2012-05/60554.htm

————————————– 分割线 ————————————–

二、准备工作

1、安装虚拟机平台，并新建一个 Ubuntu 虚拟机，记为 hadoopMaster。

2、在 hadoopMaster 上安装 JDK。

Jdk 一般有两个版本：Open JDK、SunJDK，建议使用 Sun JDK。安装步骤如下：

先去 Oracle 下载 Linux 下的 JDK 压缩包，http://www.oracle.com/technetwork/java/javase/downloads/index.html，下好后直接解压。

进入在存放 jdk 文件夹的当前目录，将解压好的 jdk1.7.0_51 文件夹用最高权限复移动到 /usr/lib/jvm 目录里，此时即使没有 jvm 目录也可以执行如下命令，jvm 文件夹将得到创建。

sudo mv jdk1.7.0_51 /usr/lib/jvm/

接下来需要设置环境变量，进入当前用户名的主文件夹，修改.profile 文件。注意，该文件是当前用户的配置文件，如果要对使用计算机的所有用户生效，那么需要设置的文件应该是 /etc/profile。

sudo gedit ~/.profile

在末尾加上:

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_51
exportJRE_HOME=/usr/lib/jvm/jdk1.7.0_51/jre
exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

然后保存关闭，此时在命令行输入 java -version 将会仍然显示 java 没有安装。此时，需要使用 source 更新下.profile 文件：

$ source ~/.profile

再次使用 java -version 命令可以看到如下输出：

linuxidc@ubuntu:~$ java -version
java version “1.7.0_51”
Java(TM) SE Runtime Environment (build1.7.0_51-b18)

到此，已经将 oracle jdk 配置完成。如果之前系统里面已经安装了 openjdk，可以使用如下方法将默认 jdk 更改过来：

$ sudo update-alternatives –install/usr/bin/java java /usr/lib/jvm/jdk1.7.0_51/bin/java 300

输入 sun jdk 前的数字就好了

$ sudo update-alternatives –install/usr/bin/javac javac /usr/lib/jvm/jdk1.7.0_51/bin/javac 300
$ sudo update-alternatives –config java
$ sudo update-alternatives –config javac

3、安装 SSH

可以先检查是否已经有 ssh，也可以跳过这步，直接安装。

$ sudo ps -ef | grep ssh

如果只有 ssh-agent 就需要安装 openssh-server 了。

$ sudo apt-get install ssh openssh-server

4、配置 SSH 公钥

$ ssh-keygen -t rsa -P “yourPassWord”

ssh-kengen 是用连字符连着的，千万不要分开。另外，密码是你的虚拟机密码，而不是空（当然，如果你的虚拟机密码为空，另当别论）。

5、建立 IP 和 hadoop 节点的映射关系

修改 etc/hosts 文件，在上面加入 hadoop 节点 IP 和名称的映射关系。

$ sudo gedit /etc/hosts

在其中加上（ip 是节点可配置的 ip，自己设定）：

192.168.32.*** hadoopMaster

192.168.32.*** hadoopSlave1

192.168.32.*** hadoop Slave2

6、克隆两个 Ubuntu 虚拟机，作为 hadoop 的其他两个节点

7、分别修改三个 Ubuntu 虚拟机的名称

sudo gedit /etc/hostname

分别将三个虚拟机名称改为：hadoopMaster，hadoopSlave1，hadoopSlave2。

8、修改三个 Ubuntu 虚拟机的 IP

更多详情见请继续阅读下一页的精彩内容：http://www.linuxidc.com/Linux/2014-06/102865p2.htm

三、配置 SSH 无密码登陆。

其目的是让 HadoopMaster 免密码登陆 hadoopSlave1 和 hadoopSalve2，步骤如下：

1、在 hadoopMaster 上创建授权文件 authorized_keys

进入~/.ssh/ 目录下执行”ls –a”，发现开始是没有 authorized_keys 文件的，可以使用以下两种方法来生成：

(1) 将 id_rsa.pub 追加到 authorized_keys 授权文件中;

keys 授权文件中;

$ cat id_rsa.pub >> authorized_keys

(2) 复制 id_rsa.pub 为 authorized_keys

$ cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

完成后就可以无密码登录本机了，可以尝试登陆 localhost

$ ssh localhost

2、将授权文件拷贝到 hadoopSlave1、hadoopSlave2 相同文件夹下

$ scp authorized_keys linux@hadoopSlave1:~/.ssh/authorized_keys

$ scp authorized_keys linux@hadoopSlave2:~/.ssh/authorized_keys

拷贝过程需要密码，拷贝之后就可以免密码登陆 hadoopSlave1 和 hadoopSlave2 了。

四、安装 Hadoop2.2，搭建集群

1、在 hadoopMaster 上安装 hadoop

首先到 Apache 官网上下载 hadoop2.2 的压缩文件，将其解压到当前用户的根文件夹中（home/linux/），将解压出的文件夹改名为 hadoop。

$ sudo mv hadoop-2.2.0 hadoop

配置之前，先在本地文件系统创建以下文件夹：~/hadoop/tmp、~/dfs/data、~/dfs/name。主要涉及的配置文件有 7 个：都在 /hadoop/etc/hadoop 文件夹下，可以用 gedit 命令对其进行编辑。

~/hadoop/etc/hadoop/hadoop-env.sh
~/hadoop/etc/hadoop/yarn-env.sh
~/hadoop/etc/hadoop/slaves
~/hadoop/etc/hadoop/core-site.xml
~/hadoop/etc/hadoop/hdfs-site.xml
~/hadoop/etc/hadoop/mapred-site.xml
~/hadoop/etc/hadoop/yarn-site.xml

(1) 配置文件 1：hadoop-env.sh
修改 JAVA_HOME 值（export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_51）
(2) 配置文件 2：yarn-env.sh
修改 JAVA_HOME 值（export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_51）
(3) 配置文件 3：slaves

hadoopSalve1
hadoopSlave2

(4) 配置文件 4：core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoopMaster:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/linux/hadoop/tmp</value>
<description>Abasefor other temporary directories.</description>
</property>
<property>
<name>hadoop.proxyuser.linux.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.linux.groups</name>
<value>*</value>
</property>
</configuration>

(5) 配置文件 5：hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoopMaster:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/linux/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/linux/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

(6) 配置文件 6：mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoopMaster:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoopMaster:19888</value>
</property>
</configuration>

(7) 配置文件 7：yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoopMaster:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoopMaster:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoopMaster:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoopMaster:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoopMaster:8088</value>
</property>
</configuration>

2、将 hadoop 文件夹拷贝到 hadoopSlave1 和 hadoopSlave2 上。

scp –r/home/linux/hadoop linux@hadoopSlave1:~/
scp –r/home/linux/hadoop linux@hadoopSlave2:~/

五、验证与运行
所有的组件启动和停止服务都在 /hadoop/sbin 目录下，一般启动 hadoop 前会格式化 namenode。具体命令参考如下：

进入安装目录：cd ~/hadoop/
格式化 namenode：./bin/hdfs namenode –format
启动 hdfs: ./sbin/start-dfs.sh
此时在 hadoopMaster 上面运行的进程有：namenodesecondarynamenode
hadoopSlave1 和 hadoopSlave2 上面运行的进程有：datanode

启动 yarn: ./sbin/start-yarn.sh
此时在 hadoopMaster 上面运行的进程有：namenodesecondarynamenoderesourcemanager
hadoopSlave1 和 hadoopSlave2 上面运行的进程有：datanode nodemanaget

查看集群状态：./bin/hdfs dfsadmin –report
查看文件块组成：./bin/hdfsfsck/ -files -blocks
查看 HDFS: http://hadoopMaster:50070
查看 RM: http:// hadoopMaster:8088

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址：http://www.linuxidc.com/Linux/2014-06/102865.htm

一、环境说明

1、虚拟机平台：VMware10

2、Linux 版本：Ubuntu-12.04.3-desktop-i386

3、JDK：jdk1.7.0_51

4、Hadoop 版本：2.2.0

5、集群节点：3 个，分别是 hadoopMaster，hadoopSlave1，hadoopSlave2

注明：文中 linuxidc 是虚拟机用户名。

————————————– 分割线 ————————————–

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop LZO 安装教程 http://www.linuxidc.com/Linux/2013-01/78397.htm

Hadoop 集群上使用 Lzo 压缩 http://www.linuxidc.com/Linux/2012-05/60554.htm

————————————– 分割线 ————————————–

二、准备工作

1、安装虚拟机平台，并新建一个 Ubuntu 虚拟机，记为 hadoopMaster。

2、在 hadoopMaster 上安装 JDK。

Jdk 一般有两个版本：Open JDK、SunJDK，建议使用 Sun JDK。安装步骤如下：

先去 Oracle 下载 Linux 下的 JDK 压缩包，http://www.oracle.com/technetwork/java/javase/downloads/index.html，下好后直接解压。

进入在存放 jdk 文件夹的当前目录，将解压好的 jdk1.7.0_51 文件夹用最高权限复移动到 /usr/lib/jvm 目录里，此时即使没有 jvm 目录也可以执行如下命令，jvm 文件夹将得到创建。

sudo mv jdk1.7.0_51 /usr/lib/jvm/

接下来需要设置环境变量，进入当前用户名的主文件夹，修改.profile 文件。注意，该文件是当前用户的配置文件，如果要对使用计算机的所有用户生效，那么需要设置的文件应该是 /etc/profile。

sudo gedit ~/.profile

在末尾加上:

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_51
exportJRE_HOME=/usr/lib/jvm/jdk1.7.0_51/jre
exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

然后保存关闭，此时在命令行输入 java -version 将会仍然显示 java 没有安装。此时，需要使用 source 更新下.profile 文件：

$ source ~/.profile

再次使用 java -version 命令可以看到如下输出：

linuxidc@ubuntu:~$ java -version
java version “1.7.0_51”
Java(TM) SE Runtime Environment (build1.7.0_51-b18)

到此，已经将 oracle jdk 配置完成。如果之前系统里面已经安装了 openjdk，可以使用如下方法将默认 jdk 更改过来：

$ sudo update-alternatives –install/usr/bin/java java /usr/lib/jvm/jdk1.7.0_51/bin/java 300

输入 sun jdk 前的数字就好了

$ sudo update-alternatives –install/usr/bin/javac javac /usr/lib/jvm/jdk1.7.0_51/bin/javac 300
$ sudo update-alternatives –config java
$ sudo update-alternatives –config javac

3、安装 SSH

可以先检查是否已经有 ssh，也可以跳过这步，直接安装。

$ sudo ps -ef | grep ssh

如果只有 ssh-agent 就需要安装 openssh-server 了。

$ sudo apt-get install ssh openssh-server

4、配置 SSH 公钥

$ ssh-keygen -t rsa -P “yourPassWord”

ssh-kengen 是用连字符连着的，千万不要分开。另外，密码是你的虚拟机密码，而不是空（当然，如果你的虚拟机密码为空，另当别论）。

5、建立 IP 和 hadoop 节点的映射关系

修改 etc/hosts 文件，在上面加入 hadoop 节点 IP 和名称的映射关系。

$ sudo gedit /etc/hosts

在其中加上（ip 是节点可配置的 ip，自己设定）：