阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop伪分布式安装【翻译自Hadoop1.1.2官方文档】

140次阅读
没有评论

共计 2780 个字符,预计需要花费 7 分钟才能阅读完成。

1.Hadoop 支持的平台:
GNU/Linux 平台是一个开发和生产的平台. hadoop 已经被证明可以在 GNU/Linux 平台不是 2000 多个节点。win32 是一个开发平台,分布式操作还没有在 win32 系统上很好的测试,所以它不被作为生产环境。
2. 安装 hdoop 需要的软件:
      linux 和 windows 下安装 hadoop 需要的软件:

      2.1 从 sun 官网下载的 1.6 的 jdk 必须被安装.

      2.2ssh 必须被安装 and ssh 协议必须使用 hadoop 脚本用来管理远程的 hadoop 进程。

      2.3windows 环境下,额外需要安装下面软件:Cygwin – 运行上述软件必须安装的 shell 环境。

3. 安装软件:

如果你的集群没有必要的软件,那么你必须安装它们

在 unbuntu linux 上执行命令如下:

$ sudo apt-get install ssh
$ sudo apt-get install rsync

在 Windows 环境下,如果你安装 cywin 的话,你不必安装上述软件,只需要在安装 cygwin 的时候选择相关的软件包即可。

openssh – the Net category
4. 下载 hadoop 地址:
http://hadoop.apache.org/releases.html
5. 准备开始 hadoop 的集群:
解压下载好的 hadoop 软件包,在该软件包中,编辑 conf/hadoop-env.sh 文件,在其中定义 JAVA_HOME。
尝试一下命令:
$ bin/hadoop
它会给你展示如何使用 hadoop 脚本。

现在你将进行安装三种 hadoop 支持模式中的一种即本地安装:

本地 (单节点) 模式
伪分布模式
分布式安装模式
6. 单节点安装:
在默认情况下,hadoop 被配置用来运行不是分布式的模式,作为一个单独的 java 进程。这种模式对于调试来说非常有用。
这个示例程序是 hadoop 自带的,用于把 conf 下的 xml 文件拷贝到 input 目录下,并且找到并显示所有与最后一个参数的正则表达式相匹配的行,output 是输出文件夹

$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-examples-*.jar grep input output ‘dfs[a-z.]+’
$ cat output/*

如此,本地安装完毕!

7. 伪分布式安装

hadoop 同样也可以以伪分布式模式在一个独立的节点上运行,其中每个 hadoop 进程都以独立的 java 进程运行。

7.1 配置:

使用以下配置:

conf/core-site.xml:

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>        <description>localhost 切换成本地的机器名 </description>
    </property>
</configuration>

conf/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

conf/mapred-site.xml:

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>
 
7.2 安装 ssh
现在可以测试本地免密码登录了:
$ ssh localhost

如果你无法本地免密码登录,你可以执行以下密令,重新生成 ssh 秘钥:
$ ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

7.3 执行:

格式化一个新的分布式文件系统:
$ bin/hadoop namenode -format

启动 hadoop 进程:
$ bin/start-all.sh

hadoop 进程的日志输出目录是: ${HADOOP_LOG_DIR} directory (defaults to ${HADOOP_HOME}/logs).

通过网页来浏览 Namenode 和 Jobtracker 状态, 默认情况下它们的访问地址是:

NameNode – http://localhost:50070/
JobTracker – http://localhost:50030/
7.4 测试 hadoop:
把 input 中的文件拷贝到分布式系统:
$ bin/hadoop fs -put conf input

运行提供一些示例:
$ bin/hadoop jar hadoop-examples-*.jar grep input output ‘dfs[a-z.]+’

检查输出:

从分布式系统中拷贝 output 中的文件到本地目录,并进行检测它们:
$ bin/hadoop fs -get output output
$ cat output/*

or

查看 output 下的分布式目录:
$ bin/hadoop fs -cat output/*

停止进程:
$ bin/stop-all.sh

至此,伪分布式安装 hadoop 完成。

CentOS 安装和配置 Hadoop2.2.0  http://www.linuxidc.com/Linux/2014-01/94685.htm

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计2780字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中