阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop-2.3.0-cdh5.1.0伪分布安装(基于CentOS)

107次阅读
没有评论

共计 6663 个字符,预计需要花费 17 分钟才能阅读完成。

一、环境

操作系统:CentOS 6.5 64 位操作系统

注:Hadoop2.0 以上采用的是 jdk 环境是 1.7,Linux 自带的 jdk 卸载掉,重新安装

下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html

软件版本:hadoop-2.3.0-cdh5.1.0.tar.gz, zookeeper-3.4.5-cdh5.1.0.tar.gz

下载地址:http://archive.cloudera.com/cdh5/cdh/5/

开始安装:

二、jdk 安装

1、检查是否自带 jdk

rpm -qa | grep jdk

java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686

2、卸载自带 jdk

yum -y remove java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686

3、安装 jdk-7u55-linux-x64.tar.gz

在 usr/ 目录下创建文件夹 java, 在 java 文件夹下运行 tar –zxvf jdk-7u55-linux-x64.tar.gz

解压到 java 目录下

[root@master01 java]# ls

jdk1.7.0_55

——————————————————————————–

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm

Hadoop2.4.1 尝鲜部署 + 完整版配置文件 http://www.linuxidc.com/Linux/2014-09/106291.htm

——————————————————————————–

三、配置环境变量

运行 vim  /etc/profile

# /etc/profile

# System wide environment and startup programs, for login setup

# Functions and aliases go in /etc/bashrc

export JAVA_HOME=/usr/java/jdk1.7.0_55
export JRE_HOME=/usr/java/jdk1.7.0_55/jre
export CLASSPATH=/usr/java/jdk1.7.0_55/lib
export PATH=$JAVA_HOME/bin: $PATH

保存修改,运行 source /etc/profile 重新加载环境变量

运行 java -version

[root@master01 java]# java -version

java version “1.7.0_55”

Java(TM) SE Runtime Environment (build 1.7.0_55-b13)

Java HotSpot(TM) 64-Bit Server VM (build 24.55-b03, mixed mode)

Jdk 配置成功

四、系统配置

1 关闭防火墙

chkconfig iptables off(永久性关闭)

配置主机名和 hosts 文件

2、SSH 无密码验证配置

因为 Hadoop 运行过程需要远程管理 Hadoop 的守护进程,NameNode 节点需要通过 SSH(Secure Shell)链接各个 DataNode 节点,停止或启动他们的进程,所以 SSH 必须是没有密码的,所以我们要把 NameNode 节点和 DataNode 节点配制成无秘密通信,同理 DataNode 也需要配置无密码链接 NameNode 节点。

在每一台机器上配置:

vi /etc/ssh/sshd_config 打开

RSAAuthentication yes # 启用 RSA 认证,PubkeyAuthentication yes # 启用公钥私钥配对认证方式

Master01: 运行:ssh-keygen –t rsa –P ”  不输入密码直接 enter

默认存放在 /root/.ssh 目录下,

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[root@master01 .ssh]# ls

authorized_keys  id_rsa  id_rsa.pub  known_hosts

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2014-09/106372p2.htm

五、Hadoop 伪分布式配置

5.1 编辑文件:etc/hadoop/hadoop-env.sh(注:JAVA_HOME 如果有值就用自己的 JAVA_HOME 替代)

# set to the root ofyour Java installation
  export JAVA_HOME=/usr/java/latest
 
  # Assuming your installation directory is/usr/local/hadoop
  export HADOOP_PREFIX=/usr/local/hadoop

5.2 增加 hadoop 环境变量

export HADOOP_HOME=/usr/local/cdh/hadoop

5.3

编辑文件  etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

编辑  etc/hadoop/hdfs-site.xml(/usr/local/cdh/hadoop/data/dfs/name 目录一定要手工创建再格式化,不然出错

<configuration>
 <property>
    <!– 开启 web hdfs–>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
 </property>
 <property>
  <name>dfs.replication</name>
  <value>1</value>
 </property>
 <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/cdh/hadoop/data/dfs/name</value>
    <description> namenode 存放 name table(fsimage) 本地目录(需要修改)</description>
 </property>
 <property>
    <name>dfs.namenode.edits.dir</name>
    <value>${dfs.namenode.name.dir}</value>
    <description>namenode 粗放 transactionfile(edits) 本地目录(需要修改)</description>
  </property>
  <property>
      <name>dfs.datanode.data.dir</name>
      <value>/usr/local/cdh/hadoop/data/dfs/data</value>
      <description>datanode 存放 block 本地目录(需要修改)</description>
  </property>
</configuration>

编辑:etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

编辑:etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

六:启动及验证安装是否成功

格式化:要先格式化 HDFS:

 bin/hdfs namenode -format

启动:

sbin/start-dfs.sh

sbin/start-yarn.sh

查看进程:jps

7448 ResourceManager

8277 SecondaryNameNode

7547 NodeManager

8079 DataNode

7975 NameNode

8401 Jps

 

1.  打开浏览器

NameNode – http://localhost:50070/

2.  创建文件夹

3.    $bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/<username>

4.  Copy 文件

$ bin/hdfs dfs -put etc/hadoop input

5.  运行作业

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0-cdh5.1.0.jar grep input output ‘dfs[a-z.]+’

6.  查看输出

$ bin/hdfs dfs -get output output

$ cat output/*

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

一、环境

操作系统:CentOS 6.5 64 位操作系统

注:Hadoop2.0 以上采用的是 jdk 环境是 1.7,Linux 自带的 jdk 卸载掉,重新安装

下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html

软件版本:hadoop-2.3.0-cdh5.1.0.tar.gz, zookeeper-3.4.5-cdh5.1.0.tar.gz

下载地址:http://archive.cloudera.com/cdh5/cdh/5/

开始安装:

二、jdk 安装

1、检查是否自带 jdk

rpm -qa | grep jdk

java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686

2、卸载自带 jdk

yum -y remove java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686

3、安装 jdk-7u55-linux-x64.tar.gz

在 usr/ 目录下创建文件夹 java, 在 java 文件夹下运行 tar –zxvf jdk-7u55-linux-x64.tar.gz

解压到 java 目录下

[root@master01 java]# ls

jdk1.7.0_55

——————————————————————————–

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm

Hadoop2.4.1 尝鲜部署 + 完整版配置文件 http://www.linuxidc.com/Linux/2014-09/106291.htm

——————————————————————————–

三、配置环境变量

运行 vim  /etc/profile

# /etc/profile

# System wide environment and startup programs, for login setup

# Functions and aliases go in /etc/bashrc

export JAVA_HOME=/usr/java/jdk1.7.0_55
export JRE_HOME=/usr/java/jdk1.7.0_55/jre
export CLASSPATH=/usr/java/jdk1.7.0_55/lib
export PATH=$JAVA_HOME/bin: $PATH

保存修改,运行 source /etc/profile 重新加载环境变量

运行 java -version

[root@master01 java]# java -version

java version “1.7.0_55”

Java(TM) SE Runtime Environment (build 1.7.0_55-b13)

Java HotSpot(TM) 64-Bit Server VM (build 24.55-b03, mixed mode)

Jdk 配置成功

四、系统配置

1 关闭防火墙

chkconfig iptables off(永久性关闭)

配置主机名和 hosts 文件

2、SSH 无密码验证配置

因为 Hadoop 运行过程需要远程管理 Hadoop 的守护进程,NameNode 节点需要通过 SSH(Secure Shell)链接各个 DataNode 节点,停止或启动他们的进程,所以 SSH 必须是没有密码的,所以我们要把 NameNode 节点和 DataNode 节点配制成无秘密通信,同理 DataNode 也需要配置无密码链接 NameNode 节点。

在每一台机器上配置:

vi /etc/ssh/sshd_config 打开

RSAAuthentication yes # 启用 RSA 认证,PubkeyAuthentication yes # 启用公钥私钥配对认证方式

Master01: 运行:ssh-keygen –t rsa –P ”  不输入密码直接 enter

默认存放在 /root/.ssh 目录下,

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[root@master01 .ssh]# ls

authorized_keys  id_rsa  id_rsa.pub  known_hosts

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2014-09/106372p2.htm

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计6663字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中