阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop 2.2.0单节点的伪分布集成环境搭建

165次阅读
没有评论

共计 6138 个字符,预计需要花费 16 分钟才能阅读完成。

Hadoop 版本发展历史

第一代 Hadoop 被称为 Hadoop 1.0

1)0.20.x

2)0.21.x

3)0.22.x

第二代 Hadoop 被称为 Hadoop 2.0(HDFS Federation、YARN)

1)0.23.x

2)2.x

3)2.2.0     稳定版本     Namenode     HA

4)2.4     ResourceManager    HA

5)2.6     稳定版本

6)2.7     jdk1.7

Hadoop 角色部署

Hadoop 的安装模式分为三种:

1)单机模式:默认的安装模式,占用资源少,不需要修改配置文件,且完全运行于本地,不需要与其它节点进行交互,也不需要使用 HDFS 文件系统和加载任何守护进程,主要应用于开发调试 MapReduce 应用程序。

2)伪分布模式:也即单节点集成模式,其所有守护进程都运行在同一台机器上(比如 Namenode、Datanode、Nodemanager、ResourceManger 和、SecondaryNamenode 等);这种模式增加了代码的调试功能,可查看内存情况、HDFS 的输入和输出、以及其它守护进城之间的交互。

3)全分布模式:主要用于生产环境,且在实际应用中均使用分布式集群。

考虑到大家学习时的硬件条件限制,我们将安装第二种伪分布模式并将 Namenode、Datanode、Nodemanager、ResourceManger 和、SecondaryNamenode 配置到同一节点。

Hadoop 环境安装准备

CentOS 系统

版本:6.5

JDK

版本:1.7.0

Hadoop

版本:2.2.0 稳定版本

注意:为了避免许多不必要的错误,以上各环境位数应该保持一致,我们选择为 64 位。

Hadoop 伪分布环境搭建

安装过程主要分为三步:JDK 安装、.SSH 无密码访问配置和 Hadoop 环境配置

1. JDK 安装

首先使用 Xshell 工具登陆到虚拟机环境下(虚拟机安装及配置点击此处跳转:CentOS 6.5 的安装详解,在此感谢“大数据躺过的坑”博主为我们提供的如此详尽的介绍 ),首先检查是否已经安装 JDK,在命令行下输入 java -version 命

令,结果如下图所示:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

很明显现在我们还没有安装 JDK,于是接下来我们就一起来学习如何从零开始搭建我们的 JDK 环境。

首先,查看我们 Centos 系统位数:file /bin/ls;结果如下,我们的 Centos 系统为 64 位,所以我们的 JDK、SSH 和 Hadoop 也必须保持位数一致。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

我们先在 usr 目录下创建个 java 目录作为存放 JDK 的目录:首先进入根目录 cd /,列出目录信息 ls,然后进入 usr 目录,并创建 java 目录 mkdir java,此时 java 应该为空目录,如图所示:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

然后,将本地下载好的 jdk1.7.0 包放到本地目录,再使用 rz 命令上传。首先,我们先运行 rz 命令,检查是否已经安装此命令。结果如图(由于我已经安装过此命令,下图为网上找到错误示例图):

Hadoop 2.2.0 单节点的伪分布集成环境搭建

很明显,如果第一次使用一定是没有安装的,接下来我们先安装此命令(如果已经安装的则跳过以下 rz 工具包安装过程)。我们运行在线下载命令即可直接进行安装:yum -y install lrzsz(yum 为包管理器,可帮助我们快速实现在线下载,- y 命令可在下载后直接安装而跳过其中的询问过程,推荐使用)

Hadoop 2.2.0 单节点的伪分布集成环境搭建

此图显示的即为安装过程,如果出现下图所示信息,则表示安装完成。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

接下来,我们使用 rz 命令上传 jdk1.7.0 包(前提得先下载好放到本地,可到官网自行下载:http://www.Oracle.com/technetwork/java/javase/downloads/index.html),运行日志命令后会弹出以下选择框进行上传文件选择,我们选中下载好的包上传即可。

Hadoop 2.2.0 单节点的伪分布集成环境搭建              Hadoop 2.2.0 单节点的伪分布集成环境搭建

此时,输入 ls 命令查看即可发现文件已成功上传:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

运行 tar zxvf jdk-7u79-linux-x64.tar.gz 命令进行解压,解压完成后再使用 ls 命令进行查看,此时可看到已经成功解压出来了,接下来的关键步骤是设置 JDK 环境变量。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

我们依次运行下图中命令即可创建 java 环境变量的脚本文件

Hadoop 2.2.0 单节点的伪分布集成环境搭建

进入后输入“i“进入编辑模式,在此模式下想文档中写入一下内容:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

输完以上内容之后,先按 Esc 键退出编辑模式,然后按下 Shift+;组合键并输入 wq 或 x 保存退出。此时,直接输入 java -version 命令还是会出错(如下图所以),为什么呢?

Hadoop 2.2.0 单节点的伪分布集成环境搭建

因为我们此时只是生产了该配置文件,但它还没有生效,所以需要使用 source 命令使其生效,然后再运行就成功了。

到此,JDK 的安装就已经完成了。肯定很多人会问我为什么不把命令全部输出来,那大家拷贝粘贴多方便,而要采取截屏的方式展示,那我有必要说一下我的想法。首先,截屏能让大家对于我的操作理解得更形象一点,而不会有种云里雾里的感觉;再者,学习本身就是一个实践的过程,如果大家只是复制粘贴,那本博文就没有任何意义了,我希望各位能亲身体会 Linux 的环境以及操作,这样才能真正起到学习的作用。所以,希望大家不要复制粘贴我的命令,而是自己完完全全敲上一两遍,自己去切身体会一下 Linux 系统本身,以及各命令的语法和作用机制。

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2017-11/148585.htm

2. SSH 无密码访问配置

首先,我们先修改一下 host 文件,添加 hostname 与 IP 之间的对应关系,以方便我们访问。输入 ipconfig 命令查看 IP 配置信息:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

 

然后,输入 vi /etc/hosts,进入 host 文件并在末尾添加一行配置:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

 

接下来,我们需要创建一个新的用户来安装 Hadoop 环境。首先,创建用户组;然后,新建 Hadoop 用户,并添加到 Hadoop 用户组中。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

注意,在配置 Hadoop 环境之前,我们需要先关闭防火墙,首先查看防火墙状态:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

关闭防火墙:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

    Hadoop 2.2.0 单节点的伪分布集成环境搭建

接下来是 SSH 无密码验证配置:

我们使用新创建的 hadoop 用户,并进入根目录下,一次输入一下命令,创建秘钥:

Hadoop 2.2.0 单节点的伪分布集成环境搭建 

Hadoop 2.2.0 单节点的伪分布集成环境搭建

Hadoop 2.2.0 单节点的伪分布集成环境搭建

然后将公钥复制到认证文件中去

Hadoop 2.2.0 单节点的伪分布集成环境搭建

使用 vi 命令进行查看:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

设置文件权限:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

使用 ssh 访问当前节点,如果出现下图所示内容表示 SSH 无密码访问配置成功:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

3. Hadoop 伪分布环境搭建及配置

  在这里,我选择把 Hadoop 安装到我们刚开始时创建的 java 目录里。我们先进入该目录,然后切换到我们的 root 用户,再使用 wget 命令实现在线下载:Hadoop 2.2.0 单节点的伪分布集成环境搭建

由于是第一次使用,所以 wget 命令并没有安装,于是我们先安装此命令再进行下载:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

安装完成后再次运行命令以下载 Hadoop:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

下载完后我们可用 ls 命令查看下载的安装包,然后解压该文件进行安装:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

如图所示,解压成功并修改文件名为 hadoop。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

我们查看文件可知 Hadoop 文件权限为 root 用户,于是我们需要将文件权限赋给 Hadoop 用户。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

接下来就是创建 hadoop 的数据目录,并将权限赋给 hadoop 用户。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

hadoop 的环境就基本搭建完毕了,然后我们需要修改一下 hadoop 的配置文件。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

如上图大方框中所示的都是其配置文件,我们需要修改 core-site.xml、hdfs-siteml 配置文件(注意:一下所有文件修改都是用过 vi+ 文件名指令进行)

Hadoop 2.2.0 单节点的伪分布集成环境搭建

 Hadoop 2.2.0 单节点的伪分布集成环境搭建

  接下来我们要编译一下文件:mapred-site.xml、yarn-site.xml 和 slaves 文件。编辑 mapred-site.xml 文件之前我们要先执行 cp mapred-site.xml.template mapred-site.xml 命令以生成 mapred-site.xml 配置文件,然后分别用 vi/vim 命令进行编辑,分别添加一下内容:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

Hadoop 2.2.0 单节点的伪分布集成环境搭建

以下指定 DataNode 和 Namenode 在同一节点上:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

接下来,我们需要设置 hadoop 环境变量,此操作必须在 root 用户下操作,然后在配置文件末尾追加以下内容:

Hadoop 2.2.0 单节点的伪分布集成环境搭建 Hadoop 2.2.0 单节点的伪分布集成环境搭建

最后,我们使用 resource /etc/profile 命令使配置生效。到此为止,我们已经完成了 hadoop 的安装与配置工作。

Hadoop 版本发展历史

第一代 Hadoop 被称为 Hadoop 1.0

1)0.20.x

2)0.21.x

3)0.22.x

第二代 Hadoop 被称为 Hadoop 2.0(HDFS Federation、YARN)

1)0.23.x

2)2.x

3)2.2.0     稳定版本     Namenode     HA

4)2.4     ResourceManager    HA

5)2.6     稳定版本

6)2.7     jdk1.7

Hadoop 角色部署

Hadoop 的安装模式分为三种:

1)单机模式:默认的安装模式,占用资源少,不需要修改配置文件,且完全运行于本地,不需要与其它节点进行交互,也不需要使用 HDFS 文件系统和加载任何守护进程,主要应用于开发调试 MapReduce 应用程序。

2)伪分布模式:也即单节点集成模式,其所有守护进程都运行在同一台机器上(比如 Namenode、Datanode、Nodemanager、ResourceManger 和、SecondaryNamenode 等);这种模式增加了代码的调试功能,可查看内存情况、HDFS 的输入和输出、以及其它守护进城之间的交互。

3)全分布模式:主要用于生产环境,且在实际应用中均使用分布式集群。

考虑到大家学习时的硬件条件限制,我们将安装第二种伪分布模式并将 Namenode、Datanode、Nodemanager、ResourceManger 和、SecondaryNamenode 配置到同一节点。

Hadoop 环境安装准备

CentOS 系统

版本:6.5

JDK

版本:1.7.0

Hadoop

版本:2.2.0 稳定版本

注意:为了避免许多不必要的错误,以上各环境位数应该保持一致,我们选择为 64 位。

Hadoop 伪分布环境搭建

安装过程主要分为三步:JDK 安装、.SSH 无密码访问配置和 Hadoop 环境配置

1. JDK 安装

首先使用 Xshell 工具登陆到虚拟机环境下(虚拟机安装及配置点击此处跳转:CentOS 6.5 的安装详解,在此感谢“大数据躺过的坑”博主为我们提供的如此详尽的介绍 ),首先检查是否已经安装 JDK,在命令行下输入 java -version 命

令,结果如下图所示:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

很明显现在我们还没有安装 JDK,于是接下来我们就一起来学习如何从零开始搭建我们的 JDK 环境。

首先,查看我们 Centos 系统位数:file /bin/ls;结果如下,我们的 Centos 系统为 64 位,所以我们的 JDK、SSH 和 Hadoop 也必须保持位数一致。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

我们先在 usr 目录下创建个 java 目录作为存放 JDK 的目录:首先进入根目录 cd /,列出目录信息 ls,然后进入 usr 目录,并创建 java 目录 mkdir java,此时 java 应该为空目录,如图所示:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

然后,将本地下载好的 jdk1.7.0 包放到本地目录,再使用 rz 命令上传。首先,我们先运行 rz 命令,检查是否已经安装此命令。结果如图(由于我已经安装过此命令,下图为网上找到错误示例图):

Hadoop 2.2.0 单节点的伪分布集成环境搭建

很明显,如果第一次使用一定是没有安装的,接下来我们先安装此命令(如果已经安装的则跳过以下 rz 工具包安装过程)。我们运行在线下载命令即可直接进行安装:yum -y install lrzsz(yum 为包管理器,可帮助我们快速实现在线下载,- y 命令可在下载后直接安装而跳过其中的询问过程,推荐使用)

Hadoop 2.2.0 单节点的伪分布集成环境搭建

此图显示的即为安装过程,如果出现下图所示信息,则表示安装完成。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

接下来,我们使用 rz 命令上传 jdk1.7.0 包(前提得先下载好放到本地,可到官网自行下载:http://www.Oracle.com/technetwork/java/javase/downloads/index.html),运行日志命令后会弹出以下选择框进行上传文件选择,我们选中下载好的包上传即可。

Hadoop 2.2.0 单节点的伪分布集成环境搭建              Hadoop 2.2.0 单节点的伪分布集成环境搭建

此时,输入 ls 命令查看即可发现文件已成功上传:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

运行 tar zxvf jdk-7u79-linux-x64.tar.gz 命令进行解压,解压完成后再使用 ls 命令进行查看,此时可看到已经成功解压出来了,接下来的关键步骤是设置 JDK 环境变量。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

我们依次运行下图中命令即可创建 java 环境变量的脚本文件

Hadoop 2.2.0 单节点的伪分布集成环境搭建

进入后输入“i“进入编辑模式,在此模式下想文档中写入一下内容:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

输完以上内容之后,先按 Esc 键退出编辑模式,然后按下 Shift+;组合键并输入 wq 或 x 保存退出。此时,直接输入 java -version 命令还是会出错(如下图所以),为什么呢?

Hadoop 2.2.0 单节点的伪分布集成环境搭建

因为我们此时只是生产了该配置文件,但它还没有生效,所以需要使用 source 命令使其生效,然后再运行就成功了。

到此,JDK 的安装就已经完成了。肯定很多人会问我为什么不把命令全部输出来,那大家拷贝粘贴多方便,而要采取截屏的方式展示,那我有必要说一下我的想法。首先,截屏能让大家对于我的操作理解得更形象一点,而不会有种云里雾里的感觉;再者,学习本身就是一个实践的过程,如果大家只是复制粘贴,那本博文就没有任何意义了,我希望各位能亲身体会 Linux 的环境以及操作,这样才能真正起到学习的作用。所以,希望大家不要复制粘贴我的命令,而是自己完完全全敲上一两遍,自己去切身体会一下 Linux 系统本身,以及各命令的语法和作用机制。

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2017-11/148585.htm

4. 测试与运行

我们先切换到 Hadoop 目录,退到安装目录,然后格式化 Namenode。

Hadoop 2.2.0 单节点的伪分布集成环境搭建

接下来我们启动集群并查看进程(由于我已经启动过,所以内容喝你妹稍有不同,但我们可以看到已经启动了的进程,如大方框所示):

Hadoop 2.2.0 单节点的伪分布集成环境搭建

到此,hadoop2.2.0 单节点伪分布集成环境就搭建完成了。

然后我们就可以在网页上查看我们的 Hadoop 环境的情况了!

Hadoop 2.2.0 单节点的伪分布集成环境搭建

为了方便访问,我们可以在 Windows 下配置 hostname 到 IP 地址的对应关系。首先以管理员身份运行记事本,然后打开 C:\Windows\System32\drivers\etc 下的 hosts.txt 文件,在文件末尾加入一行配置:

Hadoop 2.2.0 单节点的伪分布集成环境搭建

  配置好后就可以用我们的主机名替代 IP 地址进行访问了。

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2017-11/148585.htm

正文完
星哥说事-微信公众号
post-qrcode
 
星锅
版权声明:本站原创文章,由 星锅 2022-01-21发表,共计6138字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中