阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop之MapReduce程序分析

381次阅读
没有评论

共计 2798 个字符,预计需要花费 7 分钟才能阅读完成。

摘要:Hadoop 之 MapReduce 程序包括三个部分:Mapper,Reducer 和作业执行。本文介绍和分析 MapReduce 程序三部分结构。
 
关键词:MapReduce  Mapper  Reducer  作业执行
 
MapReduce 程序包括三个部分,分别是 Mapper,Reducer 和作业执行。

————————————– 分割线 ————————————–

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop LZO 安装教程 http://www.linuxidc.com/Linux/2013-01/78397.htm

Hadoop 集群上使用 Lzo 压缩 http://www.linuxidc.com/Linux/2012-05/60554.htm

————————————– 分割线 ————————————–
 
Mapper
 
一个类要充当 Mapper 需要继承 MapReduceBase 并实现 Mapper 接口。
 
Mapper 接口负责数据处理阶段。它采用形式为 Mapper<K1,V1,K2,V2> 的 Java 泛型。这里的键类和值类分别实现了 WritableComparable 接口和 Writable 接口。Mapper 接口只有一个 map()方法,用于处理一个单独的键值对。map()方法形式如下。
 
public  void map(K1  key,  V1  value,  OutputCollector<K2,V2> output ,Reporter reporter) throws  IOException
 
或者
 
public  void map(K1  key, V1 value,  Context  context) throws  IOException, InterruptedException
 
该函数处理一个给定的键 / 值对 (K1, V1),生成一个键 / 值对(K2, V2) 的列表(该列表也可能为空)。
 
Hadoop 提供的一些有用的 Mapper 实现,包括 IdentityMapper,InverseMapper,RegexMapper 和 TokenCountMapper 等。
 
Reducer
 
一个类要充当 Reducer 需要继承 MapReduceBase 并实现 Reducer 接口。
 
Reduce 接口有一个 reduce()方法,其形式如下。
 
public  void reduce(K2  key , Iterator<V2> value, OutputCollector<K3, V3>  output,  Reporter reporter) throws  IOException
 
或者
 
public  void  reduce(K2  key, Iterator<V2> value,  Context context)  throws  IOException, InterruptedException
 
当 Reducer 任务接受来自各个 Mapper 的输出时,它根据键 / 值对中的键对输入数据进行排序,并且把具有相同键的值进行归并,然后调用 reduce()函数,通过迭代处理那些与指定键相关联的值,生成一个列表 <K3, V3>(可能为空)。
 
Hadoop 提供一些有用 Reducer 实现,包括 IdentityReducer 和 LongSumReducer 等。
 
作业执行
 
在 run()方法中,通过传递一个配置好的作业给 JobClient.runJob()以启动 MapReduce 作业。run()方法里,需要为每个作业定制基本参数,包括输入路径、输出路径、Mapper 类和 Reducer 类。
 
一个典型的 MapReduce 程序基本模型如下。
 
public  class  MyJob extends  Configured implements Tool {
 
      /*  mapreduce 程序中 Mapper*/
 
      public static class MapClass extends MapReduceBase                                  implements  Mapper<Text,Text,Text,Text>  {
 
            public void map(Text  key,  Text value, 
 
                                                  OutputCollector<Text,Text> output,
 
                                                Reporter  reporter) throws IOException {
 
                                                      // 添加 Mapper 内处理代码
 
                                                }
 
      }
 
      /*MapReduce 程序中 Reducer*/
 
      public  static class  Reduce  extends  MapReduceBase 
 
      implements  Reducer<Text,Text,Text,Text>  {
 
              public void reduce<Text key,Iterator<Text> values,
 
              OutputCollector<Text,Text>output,Reporter reporter)
 
            throws IOException  {
 
                // 添加 Reducer 内处理代码
 
            }
 
      }
 
      /*MapReduce 程序中作业执行 */
 
      public int  run(String[] args) throws Exception {
 
        // 添加作业执行代码
 
        return 0;
 
      }
 
}

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计2798字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19351
评论数
4
阅读量
7976481
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
升级自动部署更新SSL证书系统、申请godaddy的APIKEY

升级自动部署更新SSL证书系统、申请godaddy的APIKEY

升级自动部署更新 SSL 证书系统、申请 godaddy 的 APIKEY 公司之前花钱购买的 ssl 证书快...
安装并使用谷歌AI编程工具Antigravity(亲测有效)

安装并使用谷歌AI编程工具Antigravity(亲测有效)

  安装并使用谷歌 AI 编程工具 Antigravity(亲测有效) 引言 Antigravity...
240 元左右!五盘位 NAS主机,7 代U硬解4K稳如狗,拓展性碾压同价位

240 元左右!五盘位 NAS主机,7 代U硬解4K稳如狗,拓展性碾压同价位

  240 元左右!五盘位 NAS 主机,7 代 U 硬解 4K 稳如狗,拓展性碾压同价位 在 NA...
星哥带你玩飞牛NAS-14:解锁公网自由!Lucky功能工具安装使用保姆级教程

星哥带你玩飞牛NAS-14:解锁公网自由!Lucky功能工具安装使用保姆级教程

星哥带你玩飞牛 NAS-14:解锁公网自由!Lucky 功能工具安装使用保姆级教程 作为 NAS 玩家,咱们最...
150元打造低成本NAS小钢炮,捡一块3865U工控板

150元打造低成本NAS小钢炮,捡一块3865U工控板

150 元打造低成本 NAS 小钢炮,捡一块 3865U 工控板 一块二手的熊猫 B3 工控板 3865U,搭...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

  三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Andr...
星哥带你玩飞牛NAS-16:不再错过公众号更新,飞牛NAS搭建RSS

星哥带你玩飞牛NAS-16:不再错过公众号更新,飞牛NAS搭建RSS

  星哥带你玩飞牛 NAS-16:不再错过公众号更新,飞牛 NAS 搭建 RSS 对于经常关注多个微...
恶意团伙利用 PHP-FPM 未授权访问漏洞发起大规模攻击

恶意团伙利用 PHP-FPM 未授权访问漏洞发起大规模攻击

恶意团伙利用 PHP-FPM 未授权访问漏洞发起大规模攻击 PHP-FPM(FastCGl Process M...
星哥带你玩飞牛NAS硬件03:五盘位+N5105+双网口的成品NAS值得入手吗

星哥带你玩飞牛NAS硬件03:五盘位+N5105+双网口的成品NAS值得入手吗

星哥带你玩飞牛 NAS 硬件 03:五盘位 +N5105+ 双网口的成品 NAS 值得入手吗 前言 大家好,我...
你的云服务器到底有多强?宝塔跑分告诉你

你的云服务器到底有多强?宝塔跑分告诉你

你的云服务器到底有多强?宝塔跑分告诉你 为什么要用宝塔跑分? 宝塔跑分其实就是对 CPU、内存、磁盘、IO 做...