阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

大数据Hadoop快速入门教程

132次阅读
没有评论

共计 5169 个字符,预计需要花费 13 分钟才能阅读完成。

1、Hadoop 生态概况

Hadoop 是一个由 Apache 基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点
Hadoop 的核心是 YARN,HDFS,Mapreduce, 常用模块架构如下

大数据 Hadoop 快速入门教程

2、HDFS
源自谷歌的 GFS 论文,发表于 2013 年 10 月,HDFS 是 GFS 的克隆版,HDFS 是 Hadoop 体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障
HDFS 简化了文件一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序,它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群不同物理机器

3、Mapreduce
源自于谷歌的 MapReduce 论文,用以进行大数据量的计算,它屏蔽了分布式计算框架细节,将计算抽象成 map 和 reduce 两部分

4、HBASE(分布式列存数据库)
源自谷歌的 Bigtable 论文,是一个建立在 HDFS 之上,面向列的针对结构化的数据可伸缩,高可靠,高性能分布式和面向列的动态模式数据库

5、zookeeper
解决分布式环境下数据管理问题,统一命名,状态同步,集群管理,配置同步等

6、HIVE
由 Facebook 开源,定义了一种类似 sql 查询语言,将 SQL 转化为 mapreduce 任务在 Hadoop 上面执行

7、flume
日志收集工具

8、yarn 分布式资源管理器
是下一代 mapreduce,主要解决原始的 Hadoop 扩展性较差,不支持多种计算框架而提出的,架构如下

大数据 Hadoop 快速入门教程

9、spark
spark 提供了一个更快更通用的数据处理平台,和 Hadoop 相比,spark 可以让你的程序在内存中运行

10、kafka
分布式消息队列,主要用于处理活跃的流式数据

11、Hadoop 伪分布式部署
目前而言,不收费的 Hadoop 版本主要有三个,都是国外厂商,分别是

1、Apache 原始版本
2、CDH 版本,对于国内用户而言,绝大多数选择该版本
3、HDP 版本

这里我们选择 CDH 版本 hadoop-2.6.0-cdh5.8.2.tar.gz,环境是 CentOS7.1,jdk 需要 1.7.0_55 以上

[root@hadoop1 ~]# useradd hadoop

我的系统默认自带的 java 环境如下
[root@hadoop1 ~]# ll /usr/lib/jvm/
total 12
lrwxrwxrwx. 1 root root  26 Oct 27 22:48 java -> /etc/alternatives/java_sdk
lrwxrwxrwx. 1 root root  32 Oct 27 22:48 java-1.6.0 -> /etc/alternatives/java_sdk_1.6.0
drwxr-xr-x. 7 root root 4096 Oct 27 22:48 java-1.6.0-openjdk-1.6.0.34.x86_64
lrwxrwxrwx. 1 root root  34 Oct 27 22:48 java-1.6.0-openjdk.x86_64 -> java-1.6.0-openjdk-1.6.0.34.x86_64
lrwxrwxrwx. 1 root root  32 Oct 27 22:44 java-1.7.0 -> /etc/alternatives/java_sdk_1.7.0
lrwxrwxrwx. 1 root root  40 Oct 27 22:44 java-1.7.0-openjdk -> /etc/alternatives/java_sdk_1.7.0_openjdk
drwxr-xr-x. 8 root root 4096 Oct 27 22:44 java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
lrwxrwxrwx. 1 root root  32 Oct 27 22:44 java-1.8.0 -> /etc/alternatives/java_sdk_1.8.0
lrwxrwxrwx. 1 root root  40 Oct 27 22:44 java-1.8.0-openjdk -> /etc/alternatives/java_sdk_1.8.0_openjdk
drwxr-xr-x. 7 root root 4096 Oct 27 22:44 java-1.8.0-openjdk-1.8.0.31-2.b13.el7.x86_64
lrwxrwxrwx. 1 root root  34 Oct 27 22:48 java-openjdk -> /etc/alternatives/java_sdk_openjdk
lrwxrwxrwx. 1 root root  21 Oct 27 22:44 jre -> /etc/alternatives/jre
lrwxrwxrwx. 1 root root  27 Oct 27 22:44 jre-1.6.0 -> /etc/alternatives/jre_1.6.0
lrwxrwxrwx. 1 root root  38 Oct 27 22:44 jre-1.6.0-openjdk.x86_64 -> java-1.6.0-openjdk-1.6.0.34.x86_64/jre
lrwxrwxrwx. 1 root root  27 Oct 27 22:44 jre-1.7.0 -> /etc/alternatives/jre_1.7.0
lrwxrwxrwx. 1 root root  35 Oct 27 22:44 jre-1.7.0-openjdk -> /etc/alternatives/jre_1.7.0_openjdk
lrwxrwxrwx. 1 root root  52 Oct 27 22:44 jre-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64 -> java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64/jre
lrwxrwxrwx. 1 root root  27 Oct 27 22:44 jre-1.8.0 -> /etc/alternatives/jre_1.8.0
lrwxrwxrwx. 1 root root  35 Oct 27 22:44 jre-1.8.0-openjdk -> /etc/alternatives/jre_1.8.0_openjdk
lrwxrwxrwx. 1 root root  48 Oct 27 22:44 jre-1.8.0-openjdk-1.8.0.31-2.b13.el7.x86_64 -> java-1.8.0-openjdk-1.8.0.31-2.b13.el7.x86_64/jre
lrwxrwxrwx. 1 root root  29 Oct 27 22:44 jre-openjdk -> /etc/alternatives/jre_openjdk

[root@hadoop1 ~]# cat /home/hadoop/.bashrc

增加如下环境变量
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_PREFIX=/opt/hadoop/current
export HADOOP_MAPRED_HOME=${HADOOP_PREFIX}
export HADOOP_COMMON_HOME=${HADOOP_PREFIX}
export HADOOP_HDFS_HOME=${HADOOP_PREFIX}
export HADOOP_YARN_HOME=${HADOOP_PREFIX}
export HTTPS_CATALINA_HOME=${HADOOP_PREFIX}/share/hadoop/httpfs/tomcat
export HADOOP_CONF_DIR=/etc/hadoop/conf
export YARN_CONF_DIR=/etc/hadoop/conf
export HTTPS_CONFIG=/etc/hadoop/conf
export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin

我们将 Hadoop 安装在 /opt/hadoop 目录下面,建立如下软连接,配置文件放在 /etc/hadoop/conf 目录下面
[root@hadoop1 hadoop]# ll current
lrwxrwxrwx 1 root root 21 Oct 29 11:02 current -> hadoop-2.6.0-cdh5.8.2

做好如下授权
[root@hadoop1 hadoop]# chown -R hadoop.hadoop hadoop-2.6.0-cdh5.8.2
[root@hadoop1 hadoop]# chown -R hadoop.hadoop /etc/hadoop/conf

CDH5 新版本的 Hadoop 启动服务脚步位于 $HADOOP_HOME/sbin 目录下面,启动服务有如下
namenode
secondarynamenode
datanode
resourcemanger
nodemanager
这里以 Hadoop 用户来进行管理和启动 Hadoop 的各种服务

[root@hadoop1 etc]# cd /etc/hadoop/conf/
[root@hadoop1 conf]# vim core-site.xml
<configuration>
 
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://hadoop1</value>
</property>
 
 
</configuration>
 
格式化 namenode
[root@hadoop1 conf]# cd /opt/hadoop/current/bin
[root@hadoop1 bin]# hdfs namenode -format
 
启动 namenode 服务
[root@hadoop1 bin]# cd /opt/hadoop/current/sbin/
[root@hadoop1 sbin]# ./hadoop-daemon.sh start namenode
[hadoop@hadoop1 sbin]$ ./hadoop-daemon.sh start datanode

查看服务启动情况

大数据 Hadoop 快速入门教程

namenode 启动完成后,就可以通过 web 界面查看状态了,默认端口是 50070,我们访问测试下

大数据 Hadoop 快速入门教程

下面关于 Hadoop 的文章您也可能喜欢,不妨看看:

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程  http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 安装和配置 Hadoop2.2.0  http://www.linuxidc.com/Linux/2014-01/94685.htm

CentOS 6.3 下 Hadoop 伪分布式平台搭建  http://www.linuxidc.com/Linux/2016-11/136789.htm

Ubuntu 14.04 LTS 下安装 Hadoop 1.2.1(伪分布模式)http://www.linuxidc.com/Linux/2016-09/135406.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

实战 CentOS 系统部署 Hadoop 集群服务 http://www.linuxidc.com/Linux/2016-11/137246.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop 2.6.0 HA 高可用集群配置详解  http://www.linuxidc.com/Linux/2016-08/134180.htm

Spark 1.5、Hadoop 2.7 集群环境搭建  http://www.linuxidc.com/Linux/2016-09/135067.htm

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址:http://www.linuxidc.com/Linux/2016-12/137808.htm

正文完
星哥说事-微信公众号
post-qrcode
 
星锅
版权声明:本站原创文章,由 星锅 2022-01-21发表,共计5169字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中