Hadoop单节点环境搭建

453次阅读

共计 3284 个字符，预计需要花费 9 分钟才能阅读完成。

下面介绍怎么在 Linux 系统上设置和配置一个单节点的 Hadoop，让你可以使用 Hadoop 的 MapReduce 和 HDFS（Hadoop Distributed File System）做一些简单的操作。

1）下载 Hadoop；
2）为你的 linux 系统安装 JDK，推荐的 JDK 版本可以在这里（http://wiki.apache.org/hadoop/HadoopJavaVersions）查看；
3）为你的系统安装 ssh。

1）为 Hadoop 设置 JDK 信息：
export JAVA_HOME=/usr/java/latest
2）将 Hadoop 解压到某个目录，例如 /usr/test 目录下。
然后编辑文件 /etc/profile 增加：
export HADOOP_INSTALL=/usr/test/hadoop-2.7.1
export PATH=$PATH:$HADOOP_INSTALL/bin
保存文件，然后使用命令 source /etc/profile 重新编译使配置生效。
执行下面的命令，如果配置正确，则会正确输出 Hadoop 的版本信息：
hadoop version

默认情况下，Hadoop 已经被配置到单节点模式，因此不需要在做额外的配置。
下面演示了一个例子，创建一个 input 目录，并放入一些文件，然后运行 Hadoop 的一个例子：

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output ‘dfs[a-z.]+’
$ cat output/*

Hadoop 也能被运行在伪分布式环境下，每个 Hadoop 节点都是一个独立的 Java 进程。

需要配置的配置文件有：
etc/hadoop/core-site.xml:

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

通过下面的方式检查你是否可以无需密匙访问 ssh：

$ ssh localhost

如果你不能无密匙访问，则需要执行下面的命令：

$ ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ export HADOOP\_PREFIX=/usr/local/hadoop

下面执行一个本地的 MaReduce 任务。

1）格式化文件系统

$ bin/hdfs namenode -format

2）开启 NameNode 精灵进程和 DataNode 精灵进程

如果该处出现错误“localhost: Error: JAVA_HOME is not set and could not be found”，则可以在 libexec/hadoop-config.sh 中直接配置“export JAVA_HOME=/usr/java/latest”。
hadoop 精灵进程日志记录在 $HADOOP_LOG_DIR 文件夹，默认是 $HADOOP_HOME/logs。
3）查看 NameNode 的 web 接口，默认为：

-NameNode – http://localhost:50070/

4）指定用于执行 MapReduce 任务的 HDFS 文件夹

$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>

5）拷贝输入文件到分布式文件系统

$ bin/hdfs dfs -put etc/hadoop input

input 必须在 hdfs 文件系统上创建好

6）运行提供的例子

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output ‘dfs[a-z.]+’

注意 input 和 output 对应 hdfs 上的文件夹

7）检查输出文件：从分布式文件系统拷贝输出文件到本地文件系统，并检测它们

$ bin/hdfs dfs -get output output
$ cat output/*

或者直接在分布式文件系统上查看输出文件：