阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop 2.7.2集群搭建详解

429次阅读
没有评论

共计 4523 个字符,预计需要花费 12 分钟才能阅读完成。

前言

因为比赛的限制是使用 Hadoop2.7.2,估在此文章下面的也是使用 Hadoop2.7.2, 具体下载地址为 Hadoop2.7.2

开始的准备

目前在我的实验室上有三台 Linux 主机,因为需要参加一个关于 spark 数据分析的比赛,所以眼见那几台服务器没有人用,我们团队就拿来配置成集群。具体打算配置如下的集群

主机名 IP 地址(内网)
SparkMaster 10.21.32.106
SparkWorker1 10.21.32.109
SparkWorker2 10.21.32.112

首先进行的是 ssh 免密码登录的操作

具体操作在 http://www.linuxidc.com/Linux/2017-08/146213.htm 已经写到了,在此不再详细说。

配置 Java 环境

因为我那三台电脑也是配置好了 JDK 了,所以在此也不详细说。
配置好 Java 的机子可以使用

java -version

来查看 Java 的版本

下载 Hadoop2.7.2

因为我最后的文件是放在 /usr/local 下面的,所以我也直接打开 /usr/local 文件夹下。直接

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

Hadoop 2.7.2 集群搭建详解

安装 Hadoop 以及配置 Hadoop 环境

解压

tar -zxvf hadoop-2.7.2.tar.gz

删除

rm -rf hadoop-2.7.2.tar.gz

解压删除之后打开 hadoop-2.7.2 文件夹,在 etc/hadoop/hadoop-env.sh 中配置 JDK 的信息
先查看本机的 jdk 目录地址在哪里

echo $JAVA_HOME

Hadoop 2.7.2 集群搭建详解

vi etc/hadoop/hadoop-env.sh

export JAVA_HOME=${JAVA_HOME}

改为

export JAVA_HOME=/usr/java/jdk1.8.0_131

Hadoop 2.7.2 集群搭建详解

为了方便我们以后开机之后可以立刻使用到 Hadoop 的 bin 目录下的相关命令,可以把 hadoop 文件夹下的 binsbin目录配置到 /etc/profile 文件中。

vi /etc/profile

添加

export PATH=$PATH:/usr/local/hadoop-2.7.2/bin:/usr/local/hadoop-2.7.7/sbin

按一下 esc, 按着shift+ 两次z 键保存

使用

source  /etc/profile

Hadoop 2.7.2 集群搭建详解

使得命令配置信息生效, 是否生效可以通过

hadoop version

查看

配置 Hadoop 分布式集群

前言

考虑是为了建立 spark 集群,所以主机命名为SparkMaster SparkWorker1 SparkWorker2

修改主机名

vi /etc/hostname

修改里面的名字为 SprakMaster, 按一下esc, 按着shift+ 两次z 键保存。

Hadoop 2.7.2 集群搭建详解

设置 hosts 文件使得主机名和 IP 地址对应关系

vi /etc/hosts

Hadoop 2.7.2 集群搭建详解

配置主机名和 IP 地址的对应关系。

Hadoop 2.7.2 集群搭建详解

Ps: 其他两台 slave 的主机也修改对应的 SparkWorker1 SparkWorker2,如果修改完主机名字之后户籍的名字没有生效,那么重启系统便可以。三台机子的 hostname 与 hosts 均要修改

Hadoop 2.7.2 集群搭建详解

在 == 三台 == 机子的总的 hadoop-2.7.2 文件夹下建立如下四个文件夹

  • 目录 /tmp,用来存储临时生成的文件
  • 目录 /hdfs,用来存储集群数据
  • 目录 hdfs/data,用来存储真正的数据
  • 目录 hdfs/name,用来存储文件系统元数据
mkdir tmp hdfs hdfs/data hdfs/name

配置 hadoop 文件

在此先修改 SparkMaster 的配置文件,然后修改完毕后通过 rsync 命令复制到其他节点电脑上。

修改 core-site.xml

vi etc/hadoop/core-site.xml

具体修改如下:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://SparkMaster:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop-2.7.2/tmp</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>

Hadoop 2.7.2 集群搭建详解

变量 fs.defaultFS 保存了 NameNode 的位置,HDFS 和 MapReduce 组件都需要它。这就是它出现在 core-site.xml 文件中而不是 hdfs-site.xml 文件中的原因。

修改 marpred-site.xml

具体修改如下

首先我们需要的是将 marpred-site.xml 复制一份:

cp etc/hadoop/marpred-site.xml.template etc/hadoop/marpred-site.xml
vi etc/hadoop/marpred-site.xml.template 

此处修改的是marpred-site.xml,不是marpred-site.xml.template

具体修改如下

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>SparkMaster:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>SparkMaster:19888</value>
    </property>
</configuration>

Hadoop 2.7.2 集群搭建详解

修改 hdfs-site.xml

vi etc/hadoop/hdfs-site.xml

具体修改如下

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop-2.7.2/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop-2.7.2/hdfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>SparkMaster:9001</value>
    </property>
    <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    </property>
</configuration>

Hadoop 2.7.2 集群搭建详解

PS:变量 dfs.replication 指定了每个 HDFS 数据块的复制次数,即 HDFS 存储文件的副本个数. 我的实验环境只有一台 Master 和两台 Worker(DataNode),所以修改为 2。

配置 yarn-site.xml

vi etc/hadoop/yarn-site.xml

具体配置如下:

<configuration>
        <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
        </property>
        <property>
               <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
               <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
               <name>yarn.resourcemanager.address</name>
               <value>SparkMaster:8032</value>
       </property>
       <property>
               <name>yarn.resourcemanager.scheduler.address</name>
               <value>SparkMaster:8030</value>
       </property>
       <property>
               <name>yarn.resourcemanager.resource-tracker.address</name>
               <value>SparkMaster:8031</value>
       </property>
       <property>
               <name>yarn.resourcemanager.admin.address</name>
               <value>SparkMaster:8033</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <value>SparkMaster:8088</value>
       </property>
</configuration>

Hadoop 2.7.2 集群搭建详解

修改 slaves 的内容

localhost 修改成为SparkWorker1SparkWorker2

Hadoop 2.7.2 集群搭建详解

SparkMaster 节点的 `hadoop-2.7.2/etc/ 下面的文件通过以下方式放去其他节点

rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/
rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/

完成之后可以查看 SparkWorker1SparkWorker2 下面的文件是否变了

启动 hadoop 分布式集群

SparkMaster 节点格式化集群的文件系统

输入

hadoop namenode -format

Hadoop 2.7.2 集群搭建详解

启动 Hadoop 集群

start-all.sh

Hadoop 2.7.2 集群搭建详解

查看各个节点的进程信息

使用

jps

查看各节点的进程信息
可以看到

Hadoop 2.7.2 集群搭建详解

Hadoop 2.7.2 集群搭建详解

Hadoop 2.7.2 集群搭建详解

此时分布式的 hadoop 集群已经搭好了

在浏览器输入

SparkMaster_IP:50070
SparkMaster_IP:8088

看到以下界面代表 Hadoop 集群已经开启了

Hadoop 2.7.2 集群搭建详解

Hadoop 2.7.2 集群搭建详解

结言

到此 Hadoop 的分布式集群就搭好了。这个 Spark 运行的基础。

dd

 

本文永久更新链接地址:http://www.linuxidc.com/Linux/2017-08/146212.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计4523字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19355
评论数
4
阅读量
8258799
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
星哥带你玩飞牛NAS-7:手把手教你免费内网穿透-Cloudflare tunnel

星哥带你玩飞牛NAS-7:手把手教你免费内网穿透-Cloudflare tunnel

星哥带你玩飞牛 NAS-7:手把手教你免费内网穿透 -Cloudflare tunnel 前言 大家好,我是星...
星哥带你玩飞牛NAS-2:飞牛配置RAID磁盘阵列

星哥带你玩飞牛NAS-2:飞牛配置RAID磁盘阵列

星哥带你玩飞牛 NAS-2:飞牛配置 RAID 磁盘阵列 前言 大家好,我是星哥之前星哥写了《星哥带你玩飞牛 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
星哥带你玩飞牛NAS-5:飞牛NAS中的Docker功能介绍

星哥带你玩飞牛NAS-5:飞牛NAS中的Docker功能介绍

星哥带你玩飞牛 NAS-5:飞牛 NAS 中的 Docker 功能介绍 大家好,我是星哥,今天给大家带来如何在...
星哥带你玩飞牛NAS-14:解锁公网自由!Lucky功能工具安装使用保姆级教程

星哥带你玩飞牛NAS-14:解锁公网自由!Lucky功能工具安装使用保姆级教程

星哥带你玩飞牛 NAS-14:解锁公网自由!Lucky 功能工具安装使用保姆级教程 作为 NAS 玩家,咱们最...
安装并使用谷歌AI编程工具Antigravity(亲测有效)

安装并使用谷歌AI编程工具Antigravity(亲测有效)

  安装并使用谷歌 AI 编程工具 Antigravity(亲测有效) 引言 Antigravity...
浏览器自动化工具!开源 AI 浏览器助手让你效率翻倍

浏览器自动化工具!开源 AI 浏览器助手让你效率翻倍

浏览器自动化工具!开源 AI 浏览器助手让你效率翻倍 前言 在 AI 自动化快速发展的当下,浏览器早已不再只是...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
每年0.99刀,拿下你的第一个顶级域名,详细注册使用

每年0.99刀,拿下你的第一个顶级域名,详细注册使用

每年 0.99 刀,拿下你的第一个顶级域名,详细注册使用 前言 作为长期折腾云服务、域名建站的老玩家,星哥一直...
多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞...
如何安装2026年最强个人助理ClawdBot、完整安装教程

如何安装2026年最强个人助理ClawdBot、完整安装教程

如何安装 2026 年最强个人助理 ClawdBot、完整安装教程 一、前言 学不完,根本学不完!近期,一款名...
300元就能买到的”小钢炮”?惠普7L四盘位小主机解析

300元就能买到的”小钢炮”?惠普7L四盘位小主机解析

  300 元就能买到的 ” 小钢炮 ”?惠普 7L 四盘位小主机解析 最近...
云服务器部署OpenClaw:轻量应用服务器+钉钉和QQ机器人

云服务器部署OpenClaw:轻量应用服务器+钉钉和QQ机器人

  云服务器部署 OpenClaw:轻量应用服务器 + 钉钉和 QQ 机器人 一、前言 最近开源圈爆...