Hadoop2.6完全分布式多节点集群安装配置

164次阅读

没有评论

共计 7845 个字符，预计需要花费 20 分钟才能阅读完成。

WindowS 版本:Win7 专业版

处理器:Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz

安装内存(RAM):4.00GB

系统类型:64bitOS

ip:192.168.1.110

宿主机：Win7 专业版

桌面虚拟机软件: 产品 VMware® Workstation 12 Pro; 版本 12.1.0 build-3272444; VMwareworkstation_full_12.1.0.2487.1453173744.exe

桌面 linuxOS: 版本 ubuntu 14.04LTS ; ubuntu-14.04.3-desktop-amd64.exe(64bit)

JDK : 版本 1.8; jdk-8u73-linux-x64.tar.gz(64bit) jdk 装到虚拟机里面，所以是 linux 的 jdk

Hadoop: 版本 2.6; hadoop-2.6.4.tar.gz

Eclipse:

集群配置：Ubuntu14（虚拟机名称）Master.Hadoop（hostname）192.168.1.111（ip）

Ubuntu14slave1（虚拟机名称）Slaver1.Hadoop（hostname）192.168.1.112（ip）

安装流程可以参考 Windows 7 下用 VMware Workstation 10 虚拟机安装 Ubuntu 14.04 http://www.linuxidc.com/Linux/2014-04/100473.htm

虚拟机软件安装的位置 d:\Program Files(x86)\VMare\VMare Workstation\

注意事项：安装出现是否更新和参与用户体验，去掉勾，不选；许可证秘钥自行百度；安装完毕打开在帮助里面可以查看版本之类的信息。

3.2 安装虚拟机并配置 Ubuntu 环境

安装流程可以参考 http://www.linuxidc.com/Linux/2016-09/135192.htm

本人虚拟机名称:Ubuntu14 虚拟机位置:d:\Ubuntu64

Ubuntu14slave1 虚拟机位置:d:\Ubuntu14slave1

两个用户名都相同，用户名 ysu 密码 123456

注意事项：客户机是 linux，版本是 ubuntu；网络类型很重要：我选的是桥接，Win7 宿主机和两个虚拟机在一个网段里面。

网络类型三种区分参考：

虚拟机网络连接方搜索式是如何设置的。如 VMWare 虚拟机提供了三种工作模式，它们是 bridged(桥接模式)、NAT(网络地址转换模式)和 host-only(主机模式)。要想在网络管理和维护中合理应用它们，你就应该先了解一下这三种工作模式，然后就知道答案了。

bridged(桥接模式)

在这种模式下，VMWare 虚拟出来的操作系统就像是局域网中的一台独立的主机，它可以访问网内任何一台机器。在桥接模式下，你需要手工为虚拟系统配置 IP 地址、子网掩码，而且还要和宿主机器处于同一网段，这样虚拟系统才能和宿主机器进行通信。同时，由于这个虚拟系统是局域网中的一个独立的主机系统，那么就可以手工配置它的 TCP/IP 配置信息，以实现通过局域网的网关或路由器访问互联网。

host-only(主机模式)

在某些特殊的网络调试环境中，要求将真实环境和虚拟环境隔离开，这时你就可采用 host-only 模式。在 host-only 模式中，所有的虚拟系统是可以相互通信的，但虚拟系统和真实的网络是被隔离开的。

3.NAT(网络地址转换模式)

使用 NAT 模式，就是让虚拟系统借助 NAT(网络地址转换)功能，通过宿主机器所在的网络来访问公网。也就是说，使用 NAT 模式可以实现在虚拟系统里访问互联网。NAT 模式下的虚拟系统的 TCP/IP 配置信息是由 VMnet8(NAT)虚拟网络的 DHCP 服务器提供的，无法进行手工修改，因此虚拟系统也就无法和本局域网中的其他真实主机进行通讯。采用 NAT 模式最大的优势是虚拟系统接入互联网非常简单，你不需要进行任何其他的配置，只需要宿主机器能访问互联网即可。

经常提示软件更新，我们选择永不更新

3.3 修改虚拟机静态 ip

参考 http://jingyan.baidu.com/article/b7001fe18f85fe0e7282ddaf.html

结果 Ubuntu14 ip192.168.1.111 子网掩码 255.255.255.0 网关 192.168.1.1 DNS 202.206.240.12

Ubuntu14slave1 ip 192.168.1.112 子网掩码 255.255.255.0 网关 192.168.1.1DNS 202.206.240.12

使用 ifconfig 查看结果

3.4 修改虚拟机主机名称和 hosts 文件

linux 命令需要自行查阅，注意命令里面是否有空格

命令：鼠标左键空白区域，Ctrl+Alt+T，弹出终端

sudo gedit /etc/hostname

sudo gedit /etc/hosts

结果：

Ubuntu14 hostname 文件 Master.Hadoop

hosts 文件 127.0.0.1 localhost 192.168.1.111Master.Hadoop 192.168.1.112 Slaver1.Hadoop

Ubuntu14Slaver1 hostname 文件 Slaver1.Hadoop

hosts 文件 127.0.0.1 localhost 192.168.1.111 Master.Hadoop 192.168.1.112 Slaver1.Hadoop

使用 ping 互相连通宿主机和虚拟机（会用到 ctrl+ c 让 ping 停止）

3.5 虚拟机安装配置 jdk

保证虚拟机能联网，打开 ubuntu 火狐浏览器，下载安装参考 Ubuntu 安装 JDK 详解 http://www.linuxidc.com/Linux/2016-11/136958.htm

我的 jdk 安装目录 /usr/lib/jvm/jdk1.8.0_73

使用 java-version 查看 jdk

3.6 SSH 无密码登陆验证配置

安装 ssh

命令：sudo apt-get install openssh-server

sudo apt-get install openssh-client

使用 ssh version 查看 ssh 是否安装成功

生成无密码密钥对:id_rsa(私钥)id_rsa.pub(公钥), 默认存储在 /home/ysu(用户名)/.ssh 目录下

命令：ssh-keygen -t rsa -P ”

使用 ls 查看是否有这两个钥

把 id_rsa.pub 追加到授权的 key 里面去。

命令：cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

使用 root 用户登陆修改 ssh 配置文件

命令：su // 输入 root 密码切换到超级用户

gedit /etc/ssh/sshd_config

检查下面几行

PermitRootLogin yes(要改成 yes)

RSAAuthentication yes # 启用 RSA 认证（去掉最前面 #）

PubkeyAuthentication yes # 启用公钥私钥配对认证方式（去掉最前面 #）

AuthorizedKeysFile %h/.ssh/authorized_keys # 公钥文件路径（去掉最前面 #）

重启 ssh 服务

/home/ysu/.ssh/ service ssh restart

使用 exit 退出 root 登陆，验证 ssh 是否设置成功

ssh localhost

在测试有可能出现 Agent admitted failure to sign using the key

解决的办法：ssh-add ~/.ssh/id_rsa

将公钥传到远程主机上

命令：cd /home/ysu/.ssh

ssh-copy-id ysu@Slaver1.Hadoop// 这里是 Master 传入 Slaver1

enter 完后输入 Slaver1.Hadoop 密码

检测是否可以无密码登陆

命令：ssh Slaver1.Hadoop

结果 ysu@Master:~$ 变成 ysu@Slaver1:~$

最后 Slaver1 机器也按照以上的步骤重复一遍

3.7 Hadoop 安装配置

注意：Hadoop2.X 版本跟 1.X 版本很多命令不一样，需要配置的文件也不一样。

保证虚拟机能联网，打开 ubuntu 火狐浏览器，下载 Hadoop（默认下载到 /home/ysu/ 下载目录里面）

root 用户登陆将 hadoop 安装包移动到 /usr 目录下

cp /home/ysu/ 下载 /hadoop-2.6.4.tar.gz /usr/

解压安装包

cd /usr/

tar -xzvf hadoop-2.6.4.tar.gz

重命名为 hadoop

mv hadoop-2.6.4 hadoop

给 ysu 用户分配 hadoop 文件夹读权限

chown -R ysu:ysu hadoop

删除安装包

rm -rf hadoop-2.6.4.tar.gz

本地文件系统创建一下文件夹

mkdir /usr/hadoop/tmp

mkdir /usr/hadoop/dfs/data

mkdir /usr/hadoop/name

修改 /etc/profile 文件添加 hadoop 路径

cd profile

sudo gedit /etc/profile

文件中

# set hadoop path

export HADOOP_HOME=/usr/hadoop

export PATH=PATH:PATH:HADOOP_HOME/bin

配置 7 个文件均在 /usr/hadoop/etc/hadoop/

配置 hadoop-env.sh // 修改 JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_73

配置 yarn-env.sh// 修改JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_73

配置 slaves 文件 // 增加 slave 节点

Slaver1.Hadoop

配置 core-site.xml 文件

<name>fs.defaultFS</name>
<value>hdfs://Master.Hadoop:9000</value>
</property>

<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
<description>Abasefor other temporary directories.</description>
</property>
<property>
</configuration>

配置 hdfs-site.xml// 增加 hdfs 配置信息（namenode、datanode 端口和目录位置）

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Master.Hadoop:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

配置 mapred-site.xml 文件 // 增加 mapreduce 配置（使用 yarn 框架、jobhistory 使用地址以及 web 地址）

注意 /usr/local/hadoop/etc/hadoop/ 文件夹下有 mapred.xml.template 文件，需要复制并重命名
cp mapred-site.xml.template mapred-site.xml
sudo gedit mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>Master.Hadoop:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>Master.Hadoop:19888</value>
</property>
</configuration>

配置 yarn-site.xml// 增加 yarn 功能

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>Master.Hadoop:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>Master.Hadoop:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>Master.Hadoop:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>Master.Hadoop:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>Master.Hadoop:8088</value>
</property>
</configuration>