阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop作业引用第三方jar文件

450次阅读
没有评论

共计 2608 个字符,预计需要花费 7 分钟才能阅读完成。

在 eclipse 中写 mapreduce 程序, 引用第三方 jar 文件, 可以利用 eclipse Hadoop 插件直接 run on hadoop 提交, 很方便. 不过插件版本要和 eclipse 匹配, 不然总是 local 执行, 在 50070 是没有 job 产生的.

如果希望将程序发布成 jar 文件, 在 namenode 上通过命令行方式执行, 缺少了 eclipse 帮忙自动配置 jar 文件, 会遇到 java.lang.ClassNotFoundException, 这个问题可分成两种情况讨论.

一. hadoop 命令式如何执行的?

其实 $HADOOP_HOME/bin/hadoop 是一个脚本文件. 以下 wordcount 命令为例

bin/hadoop jar wordcount.jar myorg.WordCount /usr/wordcount/input /usr/wordcount/output

脚本文件解析参数, 配置类路径等, 最终执行的是如下命令:

exec java -classpath $CLASSPATH org.apache.hadoop.util.RunJar $@

其中 $CLASSPATH : 包含${HADOOP_CONF_DIR}, $HADOOP_HOME 下的 *.jar 以及$HADOOP_CLASSPATH;

  • $@ : 所有脚本参数, 此处为 jar 后面的参数;
  • RunJar : 这个类的功能比较简单, 将 jar 文件解压到 “hadoop.tmp.dir” 目录下, 然后执行我们指定的类, 此处即为myorg.WordCount

p.s. hadoop 脚本比较完整的分析可参见 <Hadoop 作业提交分析 http://www.linuxidc.com/Linux/2012-04/59199.htm >.

有 RunJar 执行 WordCount 后, 就进入我们的程序了, 需要配置 mapper, reducer 以及输出输出路径等等, 最终通过执行 job.waitForCompletion(true)向 JobTracker 提交这个作业.

到目前可知, 已经完成了本地执行部分, 如果这段时期发生 ClassNotFoundException, 则可以在自己的脚本文件中配置 $HADOOP_CLASSPATH, 包含需要的第三方 jar 文件, 再执行 hadoop 命令, 此为情况一.

 

二. JobTracker 和 TaskTracker 如何获得第三方 jar 文件?

有时候提交 job 之后, 在 map 或者 reduce 函数中也会产生 ClassNotFoundException. 这是因为 map 或 reduce 可能在其他机器上执行, 那些机器没有需要的 jar 文件, mapreduce 作业交由 JobTracker 和 TaskTracker 执行, 两者如何获得第三方 jar 文件呢? 即为情况二.

我们首先来分析下 mapreduce 提交过程, 如下图所示.

Hadoop 作业引用第三方 jar 文件

step 1. 和 2. 通过 Job 类提交作业, 获得一个作业号, 并根据 conf 决定作业时提交给 LocalJobRunner 还是 JobTracker

step 3. copy job resource

client 将作业所需资源上传到 hdfs 上, 如 job split, jar 文件等. JobClient 通过 configureCommandLineOptions 函数处理 jar 文件, 该方法中通过 job 获得这些参数内容

files = job.get("tmpfiles"); // 对应参数项 -files
libjars = job.get("tmpjars"); // 对应 -libjars
archives = job.get("tmparchives"); // 对应 -archives

如果 jar 文件有配置, 则将其加入到分布式缓存 DistributedCache 中, -libjars 为例:

if (libjars != null) {FileSystem.mkdirs(fs, libjarsDir, mapredSysPerms);
    String[] libjarsArr = libjars.split(",");
    for (String tmpjars: libjarsArr) {Path tmp = new Path(tmpjars);
        Path newPath = copyRemoteFiles(fs, libjarsDir, tmp, job, replication);
        DistributedCache.addArchiveToClassPath(newPath, job);
    }
}

另外, 在 mapreduce 程序的配置中总是需要 job.setJarByClass 来指定运行的类, 如此 hadoop 就可以根据该 class 定位到所在的 jar 文件, 就是我们打包的 jar, 将其上传到 hdfs 上. 到此 jobClient 完成了资源复制过程, 这些资源可供 JobTracker 和 TaskTracker 使用.

step4-10. JobClient 提交 job 并执行作业(JobTracker 以及 TaskTracker 工作就不展开了, 详见 <Map-Reduce 过程解析> http://www.linuxidc.com/Linux/2011-11/47052.htm).

 

三. 总结

要想让 mapreduce 程序引用第三方 jar 文件, 可以采用如下方式:
  1. 通过命令行参数传递 jar 文件, 如 -libjars 等;
  2. 直接在 conf 中设置, 如 conf.set(“tmpjars”,*.jar), jar 文件用逗号隔开;
  3. 利用分布式缓存, 如 DistributedCache.addArchiveToClassPath(path, job), 此处的 path 必须是 hdfs, 即自己讲 jar 上传到 hdfs 上, 然后将路径加入到分布式缓存中;
  4. 第三方 jar 文件和自己的程序打包到一个 jar 文件中, 程序通过 job.getJar()将获得整个文件并将其传至 hdfs 上. (很笨重)
  5. 在每台机器的 $HADOOP_HOME/lib 目录中加入 jar 文件. (不推荐)

p.s. 如果通过上面方法 1. 或 2., 需要注意 Configuration 问题, 需要通过 getConf()函数获得, 而不要自己 new 一个对象.

Hadoop 怎样提交多个第三方 jar 包?http://www.linuxidc.com/Linux/2012-02/53759.htm

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计2608字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19350
评论数
4
阅读量
7960996
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-13:自动追番、订阅下载 + 刮削,动漫党彻底解放双手!

星哥带你玩飞牛NAS-13:自动追番、订阅下载 + 刮削,动漫党彻底解放双手!

星哥带你玩飞牛 NAS-13:自动追番、订阅下载 + 刮削,动漫党彻底解放双手! 作为动漫爱好者,你是否还在为...
2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025 年 11 月 28 日 -Cloudflare 史诗级事故: 一次配置失误,引爆全球宕机 前言 继今...
星哥带你玩飞牛NAS-16:飞牛云NAS换桌面,fndesk图标管理神器上线!

星哥带你玩飞牛NAS-16:飞牛云NAS换桌面,fndesk图标管理神器上线!

  星哥带你玩飞牛 NAS-16:飞牛云 NAS 换桌面,fndesk 图标管理神器上线! 引言 哈...
免费无广告!这款跨平台AI RSS阅读器,拯救你的信息焦虑

免费无广告!这款跨平台AI RSS阅读器,拯救你的信息焦虑

  免费无广告!这款跨平台 AI RSS 阅读器,拯救你的信息焦虑 在算法推荐主导信息流的时代,我们...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
仅2MB大小!开源硬件监控工具:Win11 无缝适配,CPU、GPU、网速全维度掌控

仅2MB大小!开源硬件监控工具:Win11 无缝适配,CPU、GPU、网速全维度掌控

还在忍受动辄数百兆的“全家桶”监控软件?后台偷占资源、界面杂乱冗余,想查个 CPU 温度都要层层点选? 今天给...
让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级

让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级

让微信公众号成为 AI 智能体:从内容沉淀到智能问答的一次升级 大家好,我是星哥,之前写了一篇文章 自己手撸一...
星哥带你玩飞牛NAS硬件03:五盘位+N5105+双网口的成品NAS值得入手吗

星哥带你玩飞牛NAS硬件03:五盘位+N5105+双网口的成品NAS值得入手吗

星哥带你玩飞牛 NAS 硬件 03:五盘位 +N5105+ 双网口的成品 NAS 值得入手吗 前言 大家好,我...
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸

一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸

一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸 前言 作为天天跟架构图、拓扑图死磕的...
三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

  三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Andr...