阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Pig对于数据倾斜Join的优化原理

129次阅读
没有评论

共计 678 个字符,预计需要花费 2 分钟才能阅读完成。

Pig 对于数据倾斜 Join 的优化原理

1、对数据抽样

2、根据样本数据,估计出某个 key 的所有的记录数以及所占的总内存,pig.skewedjoin.reduce.memusage 控制 reduce 消耗内存比例,再计算出某个 key 所需要的 reduce 个数,以及 reduce 的总数。

3、将结果存一个文件中,相当于索引文件,格式为:(swpv,0,3), (swps,4,5)(说明:<join key>,<min index of reducer>, <max index ofreducer>)

4、自定义 Patitioner,读取索引,并将 key 平均分配到 reduce 上。比如:(swpv,0,3) 将 swpv 平均分配到 编号为 0 - 3 的 reduce 中。

Pig 的安装与测试 http://www.linuxidc.com/Linux/2014-07/104039.htm

Pig 安装与配置教程 http://www.linuxidc.com/Linux/2013-04/82785.htm

Pig 安装部署及 MapReduce 模式下测试 http://www.linuxidc.com/Linux/2013-04/82786.htm

Pig 安装及本地模式测试, 体验 http://www.linuxidc.com/Linux/2013-04/82783.htm

Pig 的安装配置与基本使用 http://www.linuxidc.com/Linux/2013-02/79928.htm

Hadoop Pig 进阶语法 http://www.linuxidc.com/Linux/2013-02/79462.htm

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计678字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中