阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

在Ubuntu 14.04 LTS上安装部署Hadoop 2.7.1(伪分布式)

110次阅读
没有评论

共计 4831 个字符,预计需要花费 13 分钟才能阅读完成。

1、安装 Ubuntu 14.04 Desktop LTS


  • 下载 ISO 文件,ubuntu-14.04.1-desktop-amd64.iso。
  • 在 VirtualBox 或者 VMware 中新建虚拟机,将 ISO 文件设置为启动光盘。
  • Windows 7 下用 VMware Workstation 10 虚拟机安装 Ubuntu 14.04  http://www.linuxidc.com/Linux/2014-04/100473.htm
  • 一路下一步,在需要输入用户的地方,输入用户名 linuxidc,直到系统安装完成。
  • 重启虚拟机,使用 linuxidc 登录系统。设置 root 的密码,输入 sudo passwd 命令:
    • linuxidc@hduser-VirtualBox:~$ sudo passwd
    • [sudo] password for linuxidc:(输入自己的密码)
    • 输入新的 UNIX 密码:(设置 root 密码)
    • 重新输入新的 UNIX 密码:(再次设置 root 密码)
    • passwd:已成功更新密码
  • 为了便于后面操作,在ubuntu 内安装增强功能(virtualbox 增强功能或者 vmtools)
  • 添加用户到 sudo 组:
    • 命令:sudo adduser linuxidc sudo。如果用户已经在此组内会提示。
  • 添加组 Hadoop,并将 linuxidc 添加至组 hadoop(groups 命令可以查看用户所在的组):
    • su
    • addgroup hadoop
    • usermod -a -G hadoop linuxidc
2、配置 ssh 免密码登录


  • 安装 ssh serversudo apt-get install openssh-server
  • cd ~/.ssh/                         # 若没有该目录,请先执行一次 ssh localhost
    ssh-keygen -t rsa              # 会有提示,都按回车就可以
    cat id_rsa.pub >> authorized_keys  # 加入授权
  • 使用 ssh localhost 试试能否直接登录
3、配置 JDK

  • 到 Oracle 官网下载 JDK1.7,http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html。下载jdk-7u79-linux-x64.tar.gz。
  • 由于准备将 JDK 安装至 /usr/lib/jvm 下,所以先到 /usr/lib/ 目录下建立 jvm 文件夹
    • cd /usr/lib/
    • sudo mkdir jvm
  • 解压下载的安装包至 jvm 文件夹(jdk1.7.0_79)
    • sudo tar zxvf /home/linuxidc/ 桌面 /jdk-7u79-linux-x64.tar.gz -C /usr/lib/jvm 
  • 设置 JAVA_HOME:
    • nano ~/.bashrc
    • 在第一行前面增加:export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79,保存退出。
    • 使设置立即生效:source ~/.bashrc
  • 测试 JAVA_HOME 是否设置成功,输出了上面设置的路径表示成功:
    • echo $JAVA_HOME
4、安装 Hadoop2.7.1


  • 下载文件,http://hadoop.apache.org/releases.html,选择 2.7.1 的binary 格式下载。文件名为:hadoop-2.7.1.tar.gz。
  • 我们选择将 Hadoop 安装至 /usr/local/
    • sudo tar -zxvf  /home/linuxidc/ 桌面 /hadoop-2.7.1.tar.gz -C /usr/local
    • cd /usr/local/
      sudo mv ./hadoop-2.7.1/ ./hadoop              # 将文件夹名改为 hadoop
      sudo chown -R linuxidc ./hadoop                   # 修改文件权限
      测试安装是否成功,如果出现命令帮助表示成功:/usr/local/hadoop/bin/hadoop
  • 配置环境变量
    • nano ~/.bashrc
    • 打开界面后,在之前配置的JAVA_HOME 后面输入:
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
    • 使设置立即生效:source ~/.bashrc
    • 检查是否安装成功,执行命令,如果出现命令帮助表示成功:hdfs
5、配置伪分布式


  • 切换至配置文件目录:cd /usr/local/hadoop/etc/hadoop
  • 配置 core-site.xml,执行命令:nano core-site.xml。将文件中的 <configuration></configuration> 替换为:
    • <configuration>
          <property>
              <name>hadoop.tmp.dir</name>
              <value>file:/usr/local/hadoop/tmp</value>
              <description>Abase for other temporary directories.</description>
          </property>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://localhost:9000</value>
          </property>
      </configuration>
  • 配置 hdfs-site.xml,执行命令:nano hdfs-site.xml,修改为:
    • <configuration>
          <property>
              <name>dfs.replication</name>
              <value>1</value>
          </property>
          <property>
              <name>dfs.namenode.name.dir</name>
              <value>file:/usr/local/hadoop/tmp/dfs/name</value>
          </property>
          <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/usr/local/hadoop/tmp/dfs/data</value>
          </property>
      </configuration>
        关于 Hadoop 配置项的一点说明:
虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行(官方教程如此),不过若没有配置 hadoop.tmp.dir 参数,则默认使用的临时目录为 /tmp/hadoo-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行 format 才行。所以我们进行了设置,同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否则在接下来的步骤中可能会出错。
  • 配置 yarn-site.xml,执行命令:nano yarn-site.xml,修改为:
    • <configuration>
        <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        </property>
        <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
      </configuration>
  • 配置 mapred-site.xml
    • 从模板文件复制一个 xml,执行命令:mv mapred-site.xml.template mapred-site.xml
    • 执行命令:nano mapred-site.xml
    • 将文件修改为
<configuration>
  <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
  </property>
</configuration>
  • 配置完成后,执行格式化:hdfs namenode -format。倒数第五行出现 Exitting with status 0 表示成功,若为 Exitting with status 1 则是出错。
  • 启动 hadoop 所有的进程:
    start-all.sh
     
  • 查看各个进程是否正常启动,执行:jps。如果一切正常,将看到下列结果:
     
2583 DataNode
2970 ResourceManager
3461 Jps
3177 NodeManager
2361 NameNode
2840 SecondaryNam
  • 【注意】若执行 jps 后提示:
程序 ‘jps’ 已包含在下列软件包中:
* default-jdk
* ecj
* gcj-4.6-jdk
* openjdk-6-jdk
* gcj-4.5-jdk
* openjdk-7-jdk
请尝试:sudo apt-get install < 选定的软件包 >
 
那么请执行下面命令,手动设置系统默认 JDK:
sudo update-alternatives –install /usr/bin/jps jps /usr/lib/jvm/jdk1.7.0_79/bin/jps 1
sudo update-alternatives –install /usr/bin/javac javac /usr/lib/jvm/jdk1.7.0_79/bin/javac 300
sudo update-alternatives –install /usr/bin/java java /usr/lib/jvm/jdk1.7.0_79/bin/java 300
 

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程  http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 安装和配置 Hadoop2.2.0  http://www.linuxidc.com/Linux/2014-01/94685.htm

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

 
本文永久更新链接地址:http://www.linuxidc.com/Linux/2015-09/122873.htm
正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计4831字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中