阿里云-云小站（无限量代金券发放中）

【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

MapReduce中Shuffle过程整理

425次阅读

共计 756 个字符，预计需要花费 2 分钟才能阅读完成。

MapReduce 中的 Shuffle 过程分为 Map 端和 Reduce 端两个过程。

Map 端：

1.（Hash Partitioner）执行完 Map 函数后，根据 key 进行 hash，并对该结果进行 Reduce 的数量取模（该键值对将会由某个 reduce 端处理）得到一个分区号。

2.（Sort Combiner）将该键值对和分区号序列化之后的字节写入到内存缓存区（大小为 100M，装载因子为 0.8）中，当内存缓冲区的大小超过 100*0.8 = 80M 的时候，将会 spill（溢出）；在溢出之前会在内存缓冲区中对该键值对和分区号序列化之后的字节进行排序，并合并缓冲区中 key 相同的 key-value 对。

3.（Merge）对于 map 结果有多个 spill 文件的情况，会将这些文件再进行一次合并，合并每个 spill 文件中 key 相同的 key-value 对，然后形成一些新的文件并删除 spiil 文件（注意：map 端的输出文件存储在本地磁盘上，而不是在 HDFS 上）；对只有一个 spill 文件的情况，直接结束 Map 端的 shuffle。

Reduce 端：

1.（Copy）从每个 map 端使用 HTTP 拷贝需要的文件

2.（Merge）对于从每个 map 端得到的文件进行在内存（该内存不仅仅是 100M，而是 JVM 中堆的大小，因为此时不执行 Reduce 任务，JVM 的内存可以全部让 Merge 使用）中合并，合并每个文件中 key 相同的 key-value 对，将结果存储在内存或者 HDFS 上，作为 Reduce 函数的输入。

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址 ：http://www.linuxidc.com/Linux/2015-05/118028.htm

正文完

星哥玩云-微信公众号

post-qrcode

Apache Hadoop Linux服务器 MapReduce MapReduce中Shuffle过程整理 Nginx Tomcat 分布式分布式系统服务器集群

发表至：服务器应用

2022年1月20日

0

版权声明：本站原创文章，由星锅于2022-01-20发表，共计756字。

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

【腾讯云】推广者专属福利，新客户无门槛领取总价值高达2860元代金券，每种代金券限量500张，先到先得。

Ubuntu 16.04安装搭建DHCP服务详解

企业级Docker镜像仓库Harbor部署与使用

MooseFS分布式文件系统部署安装与简单使用

搭建Gitlab CI持续集成环境入门教程

开发人员和管理员必须掌握的25个Nginx命令（下）

Hadoop Map/Reduce 原理

Ubuntu下编译安装Nginx及相关设置

Piwik流量统计系统搭建(Apache2.4+Piwik+MySQL5.6+PHP5.6.14)

ASP.NET 5 (vNext) Linux部署

Hadoop新版和旧版中InputSplit大小的区别

阿里云-最新活动爆款每日限量供应

评论（没有评论）

文章搜索

热门文章

随机文章

手气不错

【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中