Hadoop2.5.0单节点以及多节点安装教程

163次阅读

共计 12686 个字符，预计需要花费 32 分钟才能阅读完成。

1、安装 jdk
可通过 whereis java 命令，查看 java 的安装路径；或者通过 which java 查看 java 的执行路径；更新 /etc/profile 文件，在文件的末尾加入以下命令：
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_20
export JRE_HOME=/usr/lib/jdk/jdk1.8.0_20/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
使用 source /etc/profile 命令，更新系统的环境变量
最后，将系统默认 jdk 修改过来

$ sudo update-alternatives –install /usr/bin/java java /usr/lib/jdk/jdk1.8.0_20/bin/java 300
$ sudo update-alternatives –install /usr/bin/javac javac /usr/lib/jdk/jdk1.8.0_20/bin/javac 300
$ sudo update-alternatives –config java
$ sudo update-alternatives –config javac

————————————– 分割线 ————————————–

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境（在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建）http://www.linuxidc.com/Linux/2011-12/48894.htm

————————————– 分割线 ————————————–

2、安装 SSH（集群已安装配置好 SSH 免密码服务；若是搭建多台节点，需要节点户县之间均能免密码 SSH 登录）
注意：
Linux 系统中 $HOME 目录下的.ssh 目录为用户所有，权限必须为 700（只有用户自己可以全权访问）
.ssh 目录下的授权文件“authorized_keys”为用户所有，权限必须为 644（只有权限为 644，才可以实现免密码，否则 ssh 连接时，仍需要输入密码）
配置两台计算节点之间免密码登录（假设为 master 免密码登录 slave）：
1、先生成公钥和私钥：ssh-keygen -t rsa -P “”
2、将 master 的公钥拷贝至 slave 的 authorized_keys 文件中：hduser@master:ssh-copy-id -i $HOME/.ssh/id_rsa.pub hduser@slave

3、将 Hdoop 安装目录解压至 opt 目录
tar -zxvf archive_name.tar.gz

4、更改 Hadoop 目录权限和所有者
sudo chown -R hu:hu hadoop-2.5.0
sudo chmod -R 755 hadoop-2.5.0

5、配置 Hadoop（以下为单节点配置，多节点中，也只需要配置主节点的环境变量即可）

在 ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh 中，添加 JAVA 安装目录：
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_20/bin/java

设置用户环境变量，以方便使用 shell 操作 hadoop，将以下设置添加至~/.bashrc 文件中

export JAVA_HOME=$HOME/java
export HADOOP_DEV_HOME=$HOME/hadoop-0.23.1
export HADOOP_MAPRED_HOME=${HADOOP_DEV_HOME}
export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME}
export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}
export YARN_HOME=${HADOOP_DEV_HOME}
export HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export HADOOP_LOG_DIR=${HADOOP_DEV_HOME}/logs
export PATH=${HADOOP_DEV_HOME}/bin

修改 mapred-site.xml
在 ${HADOOP_HOME}/etc/hadoop/ 下，将 mapred-site.xml.templat 重命名成 mapred-site.xml，并添加以下内容

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

修改 core-site.xml
在 ${HADOOP_HOME}/etc/hadoop/ 中，修改 core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000/</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-data/tmp/hadoop-${user.name}</value>
<description>A base for other temporary directories.</description>
</property>
</configuration>

修改 yarn-site.xml

在 ${HADOOP_HOME}/etc/hadoop/ 中，修改 yarn-site.xml：

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

修改 hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

修改 slaves

在 slaves 文件中添加你的节点 ip 或者 host；如：master
如果有多个 NodeManager，可一次添加到该文件中，每个占一行。

更多详情见请继续阅读下一页的精彩内容：http://www.linuxidc.com/Linux/2014-12/110458p2.htm

6、配置 Hadoop（多节点配置）

流程如下：
1、配置好一台单节点后，如下修改该节点的 hadoop 配置文件，并将 hadoop 目录分发至其余节点
2、将其他节点的 hadoop 目录所有者改为 hadoop 的使用者，并将 hadoop 目录权限改为 755
3、在其他节点上创建 hdfs 的本地目录，将目录所有者改为 hadoop 的使用者，并将目录权限改为 755；此处为创建 /hdfs/name 和 /hdfs/data 文件夹，其中 /hdfs/name 文件夹用来存放系统元数据，/hdfs/data 用来存放数据块
4、创建 /opt/hadoop-data 目录，在该目录下创建 tmp 和 logs 文件夹。其中 logs 文件夹作为日志目录，tmp 文件夹作为临时目录；将 hadoop 的程序和 hadoop 生成的日志以及中间数据分开，有利于 hadoop 的维护
5、无需更改其他节点的~/.bashrc 文件

修改 core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000/</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-data/tmp/hadoop-${user.name}</value>
<description>A base for other temporary directories.</description>
</property>
</configuration>

修改 hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value></value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/hdfs/data</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>dfs.federation.nameservices</name>
<value>master</value>
</property>

<property>
<name>dfs.namenode.rpc-address.master</name>
<value>192.168.168.101:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.master</name>
<value>192.168.168.101:23001</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address.master</name>
<value>192.168.168.101:23002</value>
</property>
</configuration>

修改 mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<property>
<name>mapreduce.jobhistory.address</name>
<value>192.168.168.101:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>192.168.168.101:19888</value>
</property>
</configuration>

修改 yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

<property>
<description>
host is the hostname of the resource manager and port is the port on which the NodeManagers contact the Resource Manager
</description>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.168.101:8031</value>
</property>

<property>
<description>
the host is the hostname of the ResourceManager and the port is the port on which the clients can talk to the Resource Manager.
</description>
<name>yarn.resourcemanager.address</name>
<value>192.168.168.101:8032</value>
</property>

<property>
<description>
host is the hostname of the resourcemanager and port is the port on which the Applications in the cluster talk to the Resource Manager.
</description>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.168.101:8030</value>
</property>

<property>
<description>The address of the RM admin interface.</description>
<name>yarn.resourcemanager.admin.address</name>
<value>192.168.168.101:8033</value>
</property>

<property>
<description>Resource Manager 的 Web 访问地址 </description>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.168.101:50030</span></strong></value>
</property>

<property>
<name>yarn.nodemanager.local-dirs</name>
<value>${hadoop.tmp.dir}/nodemanager/local</value>
<description>the local directories used by the nodemanager to store the temp file</description>
</property>

<property>
<name>yarn.nodemanager.log-dirs</name>
<value>${hadoop.tmp.dir}/nodemanager/logs</value>
<description>the directories used by Nodemanagers as log directories</description>
</property>
</configuration>

7、启动 HDFS
先格式化集群(需要使用 root 用户格式化 namenode)：bin/hadoop namenode -format                                     

注意：hdfs 在本地的目录权限和所有者，若权限过低或者所有者与 hadoop 的使用者不是同一个用户，则 namenode 或者 datanode 将无法启动。
解决方法：将 hdfs 的本地目录所有者改为 hadoop 的使用用户，并将目录权限设为 755                            
注意：datanode 无法启动时，大多原因就是因为 hadoop 的 datanode 的 VERSION 文件中的 namespaceID 与 namenode 中的 version 文件中的 namespaceID 二者出现不一致。
解决办法：

1：首先停掉 namenode 上相关的进程：切换到 hadoop 的 /sbin 目录下：
sh stop-dfs.sh
sh stop-yarn.sh
2：切换到 hdfs 本地目录，将 /name 和 /data 目录下的 /current 目录下的所有文件清除。
3：将 datanode 与 namenode 的 /current 下 VERSION 等相应文件文件清除后，回到 namenode 上，执行 bin/hadoop namenode -format 命令

如果 namenode 无法启动，查看日志，报错原因为权限不够，则将 hdfs 的本地 name 目录的所有者改为 hadoop 的使用用户（因为用 root 用户格式化，建立的 name 目录的所有者为 root 用户，普通用户没有写权限）

可以使用以下命令分别启动 NameNode 和 DataNode：
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode（如果有多个 datanode，需使用 hadoop-daemons.sh）
或者一次启动：sbin/ start-dfs.sh

8、启动 yarn

可以使用以下命令分别启动 ResourceManager 和 NodeManager：
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager（如果有多个 datanode，需使用 yarn-daemons.sh）
或者一次启动：sbin/start-yarn.sh

9、启动 historyserver
sbin/mr-jobhistory-daemon.sh start historyserver
关掉 historyserver 命令：sbin/mr-jobhistory-daemon.sh stop historyserver

10、检查是否运行成功
查看 MapReduce 任务信息：http://master:50030

查看 HDFS 信息：http://master:23001

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

1、安装 jdk
可通过 whereis java 命令，查看 java 的安装路径；或者通过 which java 查看 java 的执行路径；更新 /etc/profile 文件，在文件的末尾加入以下命令：
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_20
export JRE_HOME=/usr/lib/jdk/jdk1.8.0_20/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
使用 source /etc/profile 命令，更新系统的环境变量
最后，将系统默认 jdk 修改过来

$ sudo update-alternatives –install /usr/bin/java java /usr/lib/jdk/jdk1.8.0_20/bin/java 300
$ sudo update-alternatives –install /usr/bin/javac javac /usr/lib/jdk/jdk1.8.0_20/bin/javac 300
$ sudo update-alternatives –config java
$ sudo update-alternatives –config javac

————————————– 分割线 ————————————–

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境（在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建）http://www.linuxidc.com/Linux/2011-12/48894.htm

————————————– 分割线 ————————————–

2、安装 SSH（集群已安装配置好 SSH 免密码服务；若是搭建多台节点，需要节点户县之间均能免密码 SSH 登录）
注意：
Linux 系统中 $HOME 目录下的.ssh 目录为用户所有，权限必须为 700（只有用户自己可以全权访问）
.ssh 目录下的授权文件“authorized_keys”为用户所有，权限必须为 644（只有权限为 644，才可以实现免密码，否则 ssh 连接时，仍需要输入密码）
配置两台计算节点之间免密码登录（假设为 master 免密码登录 slave）：
1、先生成公钥和私钥：ssh-keygen -t rsa -P “”
2、将 master 的公钥拷贝至 slave 的 authorized_keys 文件中：hduser@master:ssh-copy-id -i $HOME/.ssh/id_rsa.pub hduser@slave

3、将 Hdoop 安装目录解压至 opt 目录
tar -zxvf archive_name.tar.gz

4、更改 Hadoop 目录权限和所有者
sudo chown -R hu:hu hadoop-2.5.0
sudo chmod -R 755 hadoop-2.5.0

5、配置 Hadoop（以下为单节点配置，多节点中，也只需要配置主节点的环境变量即可）

在 ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh 中，添加 JAVA 安装目录：
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_20/bin/java

设置用户环境变量，以方便使用 shell 操作 hadoop，将以下设置添加至~/.bashrc 文件中

export JAVA_HOME=$HOME/java
export HADOOP_DEV_HOME=$HOME/hadoop-0.23.1
export HADOOP_MAPRED_HOME=${HADOOP_DEV_HOME}
export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME}
export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}
export YARN_HOME=${HADOOP_DEV_HOME}
export HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export HADOOP_LOG_DIR=${HADOOP_DEV_HOME}/logs
export PATH=${HADOOP_DEV_HOME}/bin

修改 mapred-site.xml
在 ${HADOOP_HOME}/etc/hadoop/ 下，将 mapred-site.xml.templat 重命名成 mapred-site.xml，并添加以下内容

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

修改 core-site.xml
在 ${HADOOP_HOME}/etc/hadoop/ 中，修改 core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000/</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-data/tmp/hadoop-${user.name}</value>
<description>A base for other temporary directories.</description>
</property>
</configuration>

修改 yarn-site.xml

在 ${HADOOP_HOME}/etc/hadoop/ 中，修改 yarn-site.xml：

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

修改 hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>