阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

如何给Apache Pig自定义UDF函数?

448次阅读
没有评论

共计 3438 个字符,预计需要花费 9 分钟才能阅读完成。

近日由于工作所需,需要使用到 Pig 来分析线上的搜索日志数据,本人本打算使用 hive 来分析的,但由于种种原因,没有用成,而 Pig(pig0.12-cdh)本人一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了 pig 官网的文档,在看文档期间,也是边实战边学习,这样以来,对 pig 的学习,会更加容易,当然本篇不是介绍如何快速学好一门框架或语言的文章,正如标题所示,本人打算介绍下如何在 Pig 中,使用用户自定义的 UDF 函数,关于学习经验,本人会在后面的文章里介绍。

一旦你学会了 UDF 的使用,就意味着,你可以以更加灵活的方式来使用 Pig,使它扩展一些为我们的业务场景定制的特殊功能,而这些功能,在通用的 pig 里是没有的,举个例子:

你从 HDFS 上读取的数据格式,如果使用默认的 PigStorage()来加载,存储可能只支持有限的数据编码和类型,如果我们定义了一种特殊的编码存储或序列化方式,那么当我们使用默认的 Pig 来加载的时候,就会发现加载不了,这时候我们的 UDF 就派上用场了,我们只需要自定义一个 LoadFunction 和一个 StoreFunction 就可以解决,这种问题。

本篇本人根据官方文档的例子,来实战一下,并在 Hadoop 集群上使用 Pig 测试通过:

我们先来看下定义一个 UDF 扩展类,需要几个步骤:

序号 步骤 说明
1 在 eclipse 里新建一个 java 工程,并导入 pig 的核心包 java 项目
2 新建一个包,继承特定的接口或类,重写自定义部分 核心业务
3 编写完成后,使用 ant 打包成 jar 编译时需要 pig 依赖,但不用把 pig 的 jar 包打入 UDF 中
4 把打包完成后的 jar 上传到 HDFS 上 pig 运行时候需要加载使用
5 在 pig 脚本里,注册我们自定义的 udf 的 jar 包 注入运行时环境
6 编写我们的核心业务 pig 脚本运行 测试是否运行成功

项目工程截图如下:

如何给 Apache Pig 自定义 UDF 函数?

核心代码如下:

package com.pigudf; 

  •  
  • import java.io.IOException; 
  •  
  • import org.apache.pig.EvalFunc; 
  • import org.apache.pig.data.Tuple; 
  • import org.apache.pig.impl.util.WrappedIOException; 
  • /** 
  •  * 自定义 UDF 类, 对字符串转换大写 
  •  * @author qindongliang 
  •  * */ 
  • public class MyUDF extends EvalFunc<String> {
  •  
  •     @Override 
  •     public String exec(Tuple input) throws IOException {
  •          
  •          // 判断是否为 null 或空,就跳过 
  •         if(input==null||input.size()==0){
  •             return null; 
  •         } 
  •         try{
  •             // 获取第一个元素 
  •             String str=(String) input.get(0); 
  •             // 转成大写返回 
  •             return str.toUpperCase(); 
  •              
  •         }catch(Exception e){
  •             throw WrappedIOException.wrap(“Caught exception processing input row “,e); 
  •         } 
  •     } 
  •      
  •  

关于打包的 ant 脚本,散仙会在文末上传附件,下面看下造的一些测试数据(注意,文件一定要上传到 HDFS 上,除非你是 local 模式): 

Java 代码 
  1. grunt> cat s.txt 
  2. zhang san,12 
  3. Song,34 
  4. long,34 
  5. abC,12 
  6. grunt>   

我们在看下,操作文件和 jar 包是放在一起的: 

Java 代码 
  1. grunt> ls 
  2. hdfs://dnode1:8020/tmp/udf/pudf.jar<r 3>        1295 
  3. hdfs://dnode1:8020/tmp/udf/s.txt<r 3>   36 
  4. grunt>   

最后,我们看下 pig 脚本的定义: 

Pig 代码 
  1. – 注册自定义的 jar 包 
  2. REGISTER pudf.jar;   
  3. – 加载测试文件的数据,逗号作为分隔符 
  4. a = load ‘s.txt’ using PigStorage(‘,’);     
  5. – 遍历数据,对 name 列转成大写 
  6. b =  foreach a generate com.pigudf.MyUDF((chararray)$0);   
  7. – 启动 MapReduce 的 Job 进行数据分析 
  8. dump b 

最后,我们看下结果,只要过程不出现异常和任务失败,就证明我们的 udf 使用成功: 

Java 代码 
  1. Counters: 
  2. Total records written : 
  3. Total bytes written : 64 
  4. Spillable Memory Manager spill count : 
  5. Total bags proactively spilled: 
  6. Total records proactively spilled: 
  7.  
  8. Job DAG: 
  9. job_1419419533357_0147 
  10.  
  11.  
  12. 2014-12-30 18:10:24,394 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher – Success! 
  13. 2014-12-30 18:10:24,395 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation – fs.default.name is deprecated. Instead, use fs.defaultFS 
  14. 2014-12-30 18:10:24,396 [main] INFO  org.apache.pig.data.SchemaTupleBackend – Key [pig.schematuple] was not set… will not generate code. 
  15. 2014-12-30 18:10:24,405 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat – Total input paths to process : 
  16. 2014-12-30 18:10:24,405 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil – Total input paths to process : 
  17. (ZHANG SAN,12) 
  18. (SONG,34) 
  19. (LONG,34) 
  20. (ABC,12) 

结果没问题,我们的 UDF 加载执行成功,如果我们还想将我们的输出结果直接写入到 HDFS 上,可以在 pig 脚本的末尾,去掉 dump 命令,加入 
store e into ‘/tmp/dongliang/result/’; 将结果存储到 HDFS 上,当然我们可以自定义存储函数,将结果写入数据库,Lucene,Hbase 等关系型或一些 NOSQL 数据库里。

Pig 的安装与测试 http://www.linuxidc.com/Linux/2014-07/104039.htm

Pig 安装与配置教程 http://www.linuxidc.com/Linux/2013-04/82785.htm

Pig 安装部署及 MapReduce 模式下测试 http://www.linuxidc.com/Linux/2013-04/82786.htm

Pig 安装及本地模式测试, 体验 http://www.linuxidc.com/Linux/2013-04/82783.htm

Pig 的安装配置与基本使用 http://www.linuxidc.com/Linux/2013-02/79928.htm

Hadoop Pig 进阶语法 http://www.linuxidc.com/Linux/2013-02/79462.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计3438字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19350
评论数
4
阅读量
7963521
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

  颠覆 AI 开发效率!开源工具一站式管控 30+ 大模型 ApiKey,秘钥付费 + 负载均衡全...
星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛 NAS 硬件 02:某鱼 6 张左右就可拿下 5 盘位的飞牛圣体 NAS 前言 大家好,我是星...
150元打造低成本NAS小钢炮,捡一块3865U工控板

150元打造低成本NAS小钢炮,捡一块3865U工控板

150 元打造低成本 NAS 小钢炮,捡一块 3865U 工控板 一块二手的熊猫 B3 工控板 3865U,搭...
自己手撸一个AI智能体—跟创业大佬对话

自己手撸一个AI智能体—跟创业大佬对话

自己手撸一个 AI 智能体 — 跟创业大佬对话 前言 智能体(Agent)已经成为创业者和技术人绕...
星哥带你玩飞牛NAS-8:有了NAS你可以干什么?软件汇总篇

星哥带你玩飞牛NAS-8:有了NAS你可以干什么?软件汇总篇

星哥带你玩飞牛 NAS-8:有了 NAS 你可以干什么?软件汇总篇 前言 哈喽各位玩友!我是是星哥,不少朋友私...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
自己手撸一个AI智能体—跟创业大佬对话

自己手撸一个AI智能体—跟创业大佬对话

自己手撸一个 AI 智能体 — 跟创业大佬对话 前言 智能体(Agent)已经成为创业者和技术人绕...
星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛 NAS-11:咪咕视频订阅部署全攻略 前言 在家庭影音系统里,NAS 不仅是存储中心,更是内容...
小白也能看懂:什么是云服务器?腾讯云 vs 阿里云对比

小白也能看懂:什么是云服务器?腾讯云 vs 阿里云对比

小白也能看懂:什么是云服务器?腾讯云 vs 阿里云对比 星哥玩云,带你从小白到上云高手。今天咱们就来聊聊——什...
让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级

让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级

让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级 大家好,我是星哥,之前写了一篇文章 自己手撸一...
星哥带你玩飞牛NAS硬件 01:捡垃圾的最爱双盘,暴风二期矿渣为何成不老神话?

星哥带你玩飞牛NAS硬件 01:捡垃圾的最爱双盘,暴风二期矿渣为何成不老神话?

星哥带你玩飞牛 NAS 硬件 01:捡垃圾的最爱双盘,暴风二期矿渣为何成不老神话? 前言 在选择 NAS 用预...