在Ubuntu 17.10上安装Hadoop 2.8.2

471次阅读

共计 2829 个字符，预计需要花费 8 分钟才能阅读完成。

Hadoop 是获取大数据的应用程序。在这篇文章中，我们将安装一个用于伪分布式操作的 Hadoop 单节点集群。我们将使用 YARN 运行 mapreduce。

必要条件

对于本文，我创建了一个具有 8GB 内存的 VM 和 4 个 vcpu，使用的是 Ubuntu Server 17.10 ISO，其中有 60gb 的驱动器空间。请记住，这是在此配置下测试我们 Hadoop 的最低限度。我们最后运行的例子需要一些时间来运行。这个设置是如果你是 Hadoop 的新手，并且想尝试运行它。在稍后的文章中，我们将介绍并配置一个更强大的集群，它将会有更好的性能和功能。

安装所需的软件

更新您的系统并重新启动，以便我们开始尝试。

# apt update && apt upgrade -y
# reboot

由于 Hadoop 基于 Java，我们将需要在我们的服务器上安装 Java 8。

# apt install -y openjdk-8-jdk

为了确保 Hadoop 附带的脚本正常工作，确保安装了 ssh 和 pdsh。

# apt install ssh pdsh -y

现在我们可以开始配置 Hadoop 了。

下载 Hadoop

在撰写本文时，Hadoop 的最新稳定版本是 2.8.2，因此我们将下载该版本。

# wget http://apache.cs.utah.edu/hadoop/common/stable/hadoop-2.8.2.tar.gz
# tar -xzvf hadoop-2.8.2.tar.gz
# cd hadoop-2.8.2/

我们需要对我们的配置做一些补充，所以用适当的内容编辑下面几个文件：

etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr

etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

现在为了使脚本正常工作，我们需要设置无密码的 SSH 登录 localhost：

  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys

格式化 HDFS 文件系统。

# bin/hdfs namenode -format

最后，启动 HDFS。

# sbin/start-dfs.sh

启动后，您可以通过以下 URL 访问 NameNode 的 Web 界面：http://{server-ip}:50070。

配置 YARN

创建 YARN 需要的目录。

# bin/hdfs dfs -mkdir /user
# bin/hdfs dfs -mkdir /user/root

编辑 etc/hadoop/mapred-site.xml 并添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

很编辑 etc/hadoop/yarn-site.xml:

<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.nodemanager.vmem-check-enabled</name>
		<value>false</value>
	</property>

启动 YARN:

# sbin/start-yarn.sh

您现在可以查看网页界面 http://{server-ip}:8088.

测试我们的安装

为了测试所有的工作，我们可以使用 YARN 运行 MapReduce job：

# bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.2.jar pi 16 1000

这将使用 quasiMonteCarlo 方法来计算 PI 到小数点后 16 位。一两分钟后，你应该得到你的回应：

Job Finished in 96.095 seconds
Estimated value of Pi is 3.14250000000000000000

这应该足以让您开始您的 Hadoop 旅程。我希望你喜欢这篇文章，如果对您有帮助，或者如果有问题，请发表评论并告诉我。

Hadoop 项目之基于 CentOS7 的 Cloudera 5.10.1（CDH）的安装部署 http://www.linuxidc.com/Linux/2017-04/143095.htm

Hadoop2.7.2 集群搭建详解（高可用）http://www.linuxidc.com/Linux/2017-03/142052.htm

使用 Ambari 来部署 Hadoop 集群（搭建内网 HDP 源）http://www.linuxidc.com/Linux/2017-03/142136.htm

Ubuntu 14.04 下 Hadoop 集群安装 http://www.linuxidc.com/Linux/2017-02/140783.htm

CentOS 6.7 安装 Hadoop 2.7.2 http://www.linuxidc.com/Linux/2017-08/146232.htm

Ubuntu 16.04 上构建分布式 Hadoop-2.7.3 集群 http://www.linuxidc.com/Linux/2017-07/145503.htm

CentOS 7.3 下 Hadoop2.8 分布式集群安装与测试 http://www.linuxidc.com/Linux/2017-09/146864.htm

CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建 http://www.linuxidc.com/Linux/2017-06/144932.htm

Hadoop2.7.3+Spark2.1.0 完全分布式集群搭建过程 http://www.linuxidc.com/Linux/2017-06/144926.htm

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址 ：http://www.linuxidc.com/Linux/2017-12/149852.htm

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022年1月21日

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Ubuntu 14.04基于Nginx安装WordPress

怎样用 WPScan，Nmap 和 Nikto 扫描和检查一个 WordPress 站点的安全性

在Ubuntu 17.10上安装Apache Spark

在Ubuntu 17.10上安装Hadoop 2.8.2

必要条件

安装所需的软件

下载 Hadoop

配置 YARN

测试我们的安装

150元打造低成本NAS小钢炮，捡一块3865U工控板

星哥带你玩飞牛NAS-11：咪咕视频订阅部署全攻略

星哥带你玩飞牛 NAS-10：备份微信聊天记录、数据到你的NAS中!

星哥带你玩飞牛NAS-13：自动追番、订阅下载 + 刮削，动漫党彻底解放双手！

星哥带你玩飞牛NAS-14：解锁公网自由！Lucky功能工具安装使用保姆级教程

颠覆 AI 开发效率！开源工具一站式管控 30+大模型ApiKey，秘钥付费+负载均衡全搞定

Prometheus：监控系统的部署与指标收集

如何安装2026年最强个人助理ClawdBot、完整安装教程

两千起拿下当年1.9W的 MacBook Pro，这波二手到底值不值？

星哥带你玩飞牛NAS-16：不再错过公众号更新，飞牛NAS搭建RSS

免费图片视频管理工具让灵感库告别混乱

告别Notion焦虑！这款全平台开源加密笔记神器，让你的隐私真正“上锁”

如何安装2026年最强个人助理ClawdBot、完整安装教程

仅2MB大小！开源硬件监控工具：Win11 无缝适配，CPU、GPU、网速全维度掌控

240 元左右！五盘位 NAS主机，7 代U硬解4K稳如狗，拓展性碾压同价位

云服务器部署OpenClaw：轻量应用服务器+钉钉和QQ机器人