阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop大数据部署

421次阅读
没有评论

共计 11046 个字符,预计需要花费 28 分钟才能阅读完成。

Hadoop 大数据部署

一. 系统环境配置:

1. 关闭防火墙,selinux

关闭防火墙:
systemctl stop firewalld
systemctl disable firewalld

设置 selinux 为 disable
# cat /etc/selinux/config
SELINUX=disabled

2. 配置 ntp 时间服务器
# yum -y install ntpdate
# crontab -l
*/5 * * * * /usr/sbin/ntpdate 192.168.1.1 >/dev/null 2>&1

将 IP 地址换成可用的时间服务器 IP

3. 修改系统限制
# cat /etc/security/limits.conf
* soft nproc  100000
* hard nproc  100000
* soft nofile 102400
* hard nofile 102400
hadoop soft nproc  100000
hadoop hard nproc  100000
hadoop soft nofile 102400
hadoop hard nofile 102400

4. 创建 hadoop 用户
groupadd -g 1002 hadoop
useradd -u 1002 -g hadoop hadoop

5. 配置 hosts
[root@hadoop2 ~]# cat /etc/hosts
127.0.0.1  localhost localhost.localdomain localhost4 localhost4.localdomain4
::1        localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.24.43 hadoop1
192.168.24.216 hadoop2
192.168.24.7 hadoop3

6. 分发公钥
# su – hadoop
$ ssh-keygen
$ ssh-copy-id hadoop@hadoop1
$ ssh-copy-id hadoop@hadoop2
$ ssh-copy-id hadoop@hadoop3

保证某一个节点上都有所有的节点的公钥。

7. 安装 jdk
# yum -y install jdk-8u171-linux-x64.rpm
# java -version
java version “1.8.0_171”
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)

8. 安装 SCALA

Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在 Java 虚拟机上,并兼容现有的 Java 程序。Scala 源代码被编译成 Java 字节码,所以它可以运行于 JVM 之上,并可以调用现有的 Java 类库。
cd /app
tar -zxvf /home/Software/scala-2.11.12.tgz  -C .
 mv scala-2.11.12 scala

9. 安装 snappy

Snappy 是一个压缩 / 解压缩库。它的目标不是最大压缩,也不与任何其他压缩库兼容; 相反,它的目标是非常高的速度和合理的压缩。例如,与最快的 zlib 模式相比,对于大多数输入,Snappy 的速度要快一个数量级,但生成的压缩文件大小要高 20%到 100%。
yum -y install automake autoconf libtool openssl openssl-devel gcc gcc-c++
tar -zxvf  snappy-1.1.3.tar.gz
cd snappy-1.1.3
./autogen.sh
./configure
make & make install

10. 安装 lzo 以及 lzop

LZO 是一个用 ANSI C 语言编写的无损压缩库。他能够提供非常快速的压缩和解压功能。解压并不需要内存的支持。即使使用非常大的压缩比例进行缓慢压缩出的数据,依然能够非常快速的解压。LZO 遵循 GNU 的 GPL 使用许可。
LZO 非常适合进行数据的实时压缩解压处理,这就是说他更关心操作速度,而不是压缩比例。
LZO 使用 ANSI C 语言编写,并且压缩后的数据也被设计为可以跨平台使用的格式。
tar -xvf lzo-2.06.tar.gz
cd lzo-2.06
./configure –enable-shared
make && make install

lzop 是使用 lzo 库写的一个程序,通过 shell 命令直接可以压缩、解压缩文件。
tar -xvf lzop-1.03.tar.gz
cd lzop-1.03
./configure
make && make install

二. Zookeeper 集群

Zookeeper 有三种安装模式,单机模式:单节点安装 standalones 模式;伪集群模式:在一台主机上启动多个 zookeeper 的实例;集群模式:需要奇数台服务器,至少 3 台,每台启动一个 zookeeper 实例。

1. 解压安装 Zookeepr
su – hadoop
mkdir /app
tar -zxvf zookeeper-3.4.10.tar.gz -C /app/
cd /app
sudo mv zookeeper-3.4.10 zookeeper
mkdir data logs

2. 修改 zoo.cfg 文件
[hadoop@hadoop1 ~]$ vim /app/zookeeper/conf/zoo.cfg
tickTime=2000
initLimit=20
syncLimit=10
dataDir=/app/zookeeper/data
dataLogDir=/app/zookeeper/logs
clientPort=2181
server.1=hadoop1:2888:3888
server.2=hadoop2:2888:3888
server.3=hadoop3:2888:3888

initLimit:初始化链接时,follower 和 leader 之间的最长心跳时间,20*2000 即 40 秒
syncLimit:leader 和 follower 之间发送消息, 请求和应答的最大时间长度,即 20 秒
server.X=A:B:C 其中 X 是一个数字, 表示这是第几号 server. A 是该 server 所在的 IP 地址. B: 配置该 server 和集群中的 leader 交换消息所使用的端口. C: 配置选举 leader 时所使用的端口

3. 修改 myid

在 /app/zookeeper/data/ 下增加一个 myid 文件,把前面配置文件里 server.X 中的 X 写入里面。
[hadoop@hadoop1 ~]$ cat /app/zookeeper/data/myid
1

4. 修改 zookeeper 的日志输出路径:

修改 /app/zookeeper/bin/zkEnv.sh 下的 ZOO_LOG_DIR 改为配置文件里写的路径 /app/zookeeper/logs。
if [“x${ZOO_LOG_DIR}” = “x” ]
then
    ZOO_LOG_DIR=”/app/zookeeper/logs”
fi

5. 启动并调试 zookeeper

启动:

$ zkServer.sh start

查看状态:

$ zkServer.sh status
[hadoop@hadoop1 ~]$ zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /app/zookeeper/bin/../conf/zoo.cfg
Mode: follower

二. Hadoop HA 安装

hadoop 分为 1.0 和 2.0 两个大版本,具体的区别自行查找。本文主要使用的是 hadoop2.0。hadoop2.0 的生态系统主要包括以下核心项目:HDFS YARN MapReduce。

1. 解压安装
sudo tar -zxvf hadoop-2.9.1.tar.gz -C /app/
$ pwd
/app/hadoop/etc/hadoop
$ ls
capacity-scheduler.xml      httpfs-env.sh            mapred-env.sh
configuration.xsl          httpfs-log4j.properties  mapred-queues.xml.template
container-executor.cfg      httpfs-signature.secret  mapred-site.xml
core-site.xml              httpfs-site.xml          mapred-site.xml.template
hadoop-env.cmd              kms-acls.xml            slaves
hadoop-env.sh              kms-env.sh              ssl-client.xml.example
hadoop-metrics2.properties  kms-log4j.properties    ssl-server.xml.example
hadoop-metrics.properties  kms-site.xml            yarn-env.cmd
hadoop-policy.xml          log4j.properties        yarn-env.sh
hdfs-site.xml              mapred-env.cmd          yarn-site.xml

2. 修改 hadoop 的环境变量(hadoop-env.sh)
export HADOOP_HEAPSIZE=16196
export JAVA_HOME=/usr/java/1.8.0_171
export JAVA_LIBRARY_PATH=/app/hadoop-2.9.1/lib/native
export HADOOP_OPTS=”-Djava.library.path=/app/hadoop-2.9.0/lib/native”
注意:如果在 CentOS 6 环境中变量名后面的路径必须使用双引号,否则后面启动的时候报错找不到该变量。

3. 修改 core-site.xml
<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://myhadoop</value>
</property>
<property>
  <name>ha.zookeeper.quorum</name>
  <value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/app/hadoop/tmp</value>
</property>
<property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
</property>
<property>
    <name>io.compression.codecs</name>                            <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
<property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
</property>
</configuration>

3. 修改 hdfs-site.xml
<configuration>
<property>
  <name>dfs.nameservices</name>
  <value>myhadoop</value>
</property>
<property>
  <name>dfs.ha.namenodes.myhadoop</name>
  <value>nn1,nn2</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.myhadoop.nn1</name>
  <value>hadoop1:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.myhadoop.nn2</name>
  <value>hadoop2:8020</value>
</property>
<property>
  <name>dfs.namenode.http-address.myhadoop.nn1</name>
  <value>hadoop1:50070</value>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn2</name>
  <value>hadoop2:50070</value>
</property>
<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/app/hadoop/qjournal</value>
</property>
<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485/myhadoop</value>
</property>
<property>
  <name>dfs.client.failover.proxy.provider.myhadoop</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
  <name>dfs.ha.fencing.methods</name>
  <value>sshfence</value>
</property>
<property>
  <name>dfs.ha.fencing.ssh.private-key-files</name>
  <value>/home/hadoop/.ssh/id_rsa</value>
</property>
 <property>
  <name>dfs.ha.automatic-failover.enabled</name>
  <value>true</value>
 </property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/app/hadoop/dfs/name,file:/hadoop/dfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/app/hadoop/dfs/data</value>
</property>
<property>
    <name>dfs.datanode.handler.count</name>
    <value>100</value>
</property>
<property>
    <name>dfs.namenode.handler.count</name>
    <value>1024</value>
</property>
<property>
    <name>dfs.datanode.max.xcievers</name>
    <value>8096</value>
</property>
</configuration>

3. 修改 yarn-site.xml
<configuration>
<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster1</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>hadoop1</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>hadoop2</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm1</name>
  <value>hadoop1:8088</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm2</name>
  <value>hadoop2:8088</value>
</property>
<property>
  <name>yarn.resourcemanager.zk-address</name>
  <value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>
</property>
</configuration>

5. 修改 mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop1:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop1:19888</value>
</property>
<property>
    <name>mapreduce.job.tracker</name>
    <value>hdfs://hadoop1:8021</value>
</property>
<property>
    <name>mapreduce.reduce.shuffle.parallelcopies</name>
    <value>50</value>
</property>
<property>
    <name>mapreduce.map.java.opts</name>
    <value>-Xmx4096M</value>
</property>
<property>
    <name>mapreduce.reduce.java.opts</name>
    <value>-Xmx8192M</value>
</property>
<property>
    <name>mapreduce.map.memory.mb</name>
    <value>4096</value>
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>8192</value>
</property>
<property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapred.child.env</name>
    <value>JAVA_LIBRARY_PATH=/app/hadoop-2.9.1/lib/native</value>
</property>
<property>
    <name>mapreduce.map.output.compress.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>512</value>
</property>
<property>
    <name>mapreduce.task.io.sort.factor</name>
    <value>100</value>
</property>
<property>
    <name>mapred.reduce.tasks</name>
    <value>4</value>
</property>
<property>
    <name>mapred.map.tasks</name>
    <value>20</value>
</property>
<property>
    <name>mapred.child.java.opts</name>
    <value>-Xmx4096m</value>
</property>
<property>
    <name>mapreduce.reduce.shuffle.memory.limit.percent</name>
    <value>0.1</value>
</property>
<property>
    <name>mapred.job.shuffle.input.buffer.percent</name>
    <value>0.6</value>
</property>
</configuration>

6. 修改 yarn-env.sh 环境,添加环境变量

在 yarn-env.sh 文件后面设置 yarn heap 大小。追加下面这句
YARN_HEAPSIZE=4000

添加环境变量:
$ tail .bash_profile
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64
export HADOOP_HOME=/app/hadoop
export ZOOKPEER_HOME=/app/zookeeper
export LIBRAY_PATH=$HADOOP_HOME/lib/native
export SCALA_HOME=/app/scala
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKPEER_HOME/bin:$SCALA_HOME/bin

7 集群的启动与监控

安装 psmisc,否则不能实现自动切换:
yum -y install psmisc

启动集群:
# 1. 在所有 zookeeper 节点上执行
zkServer.sh start
# 1.1 在 leader 上执行,用 zookeeper 进行初始化,这将会创建一个 znode 在 zookeeper 上内部实现自动备援系统。
hdfs zkfc -formatZK
# 1.2 If you are setting up a fresh HDFS cluster, you should first run the format command,on one of NameNodes.
hdfs namenode -format
# 2. 自动启动 hdfs 服务
start-dfs.sh
# 2.1 注意:如何你想要手动的管理你的集群服务,你必须通过 zkfc deamon 来启动你的 namenode,命令如下:
hadoop-daemon.sh –script hdfs start zkfc
# 3. 在 hadoop 启动 Resourcemanager
start-yarn.sh
# 4. 在另一个节点上启动 standby resourcemanager
yarn-daemon.sh start resourcemanager

# 其他命令:
# 启停 namenode
hadoop-daemon.sh start/stop namenode
# 启停 datanode
hadoop-daemon.sh start/stop namenode

查看状态:
# 查看各个节点
$ jps
2049 NameNode
2611 DFSZKFailoverController
3465 ResourceManager
1727 QuorumPeerMain
2159 DataNode
2415 JournalNode
3199 NodeManager
3695 Jps
# 查看 HDFS 集群 namedate 节点的状态
hdfs haadmin -getAllServiceState
# 查看 nn1/nn2 的状态
hdfs haadmin -getServiceState nn1
hdfs haadmin -getServiceState nn2
# 查看 resourcemanager 集群的主备状态
$ yarn rmadmin -getAllServiceState
hadoop1:8033                                      active   
hadoop2:8033                                      standby 
# 查看 resourcemanager 的集群各个节点的状态
$ yarn rmadmin -getServiceState rm1
active
$ yarn rmadmin -getServiceState rm2
standby

hadoop 集群监控相关的端口:
NameNode: http://namenode_host:50070
ResourceManager: http://resourcemanager_host:8088
MapReduce JobHistory Server: http://jobistoryserver_host:19888

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计11046字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19351
评论数
4
阅读量
7976408
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
星哥带你玩飞牛 NAS-10:备份微信聊天记录、数据到你的NAS中!

星哥带你玩飞牛 NAS-10:备份微信聊天记录、数据到你的NAS中!

星哥带你玩飞牛 NAS-10:备份微信聊天记录、数据到你的 NAS 中! 大家对「数据安全感」的需求越来越高 ...
【开源神器】微信公众号内容单篇、批量下载软件

【开源神器】微信公众号内容单篇、批量下载软件

【开源神器】微信公众号内容单篇、批量下载软件 大家好,我是星哥,很多人都希望能高效地保存微信公众号的文章,用于...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
还在找免费服务器?无广告免费主机,新手也能轻松上手!

还在找免费服务器?无广告免费主机,新手也能轻松上手!

还在找免费服务器?无广告免费主机,新手也能轻松上手! 前言 对于个人开发者、建站新手或是想搭建测试站点的从业者...
Prometheus:监控系统的部署与指标收集

Prometheus:监控系统的部署与指标收集

Prometheus:监控系统的部署与指标收集 在云原生体系中,Prometheus 已成为最主流的监控与报警...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

  三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Andr...
让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级

让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级

让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级 大家好,我是星哥,之前写了一篇文章 自己手撸一...
星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛 NAS-11:咪咕视频订阅部署全攻略 前言 在家庭影音系统里,NAS 不仅是存储中心,更是内容...
支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare 也瘫了连监控都挂,根因藏在哪? 最近两天的互联网堪称“故障...
星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛 NAS 硬件 02:某鱼 6 张左右就可拿下 5 盘位的飞牛圣体 NAS 前言 大家好,我是星...