利用conda在Hadoop-stream中使用定制Python解释器

432次阅读

共计 2448 个字符，预计需要花费 7 分钟才能阅读完成。

在利用 Hadoop-stream 工具发布 Python 任务时很容易出现 ’subprocess failed with code 1’ 错误，一般这种错误都是因为 Datanode 在执行 python 脚本时发生异常导致。比较常见的是 python 脚本执行中发生了一些错误，这种可以通过增加 try 语句解决，另外最常见的就是缺失第三方库了。

缺失第三方库最简单的解决方法当然是在所有的 Datanode 中部署同样的 python 解释器——这种方法在小集群下可行，但集群节点数量上来后每当增加新库或更新 python 版本时就变成了繁琐又耗时的工作。而且如果有一个节点的 python 解释器出了问题排查起来也是相当恼人。

在之前的工作中，尝试了网上提到的 virtualenv 打包 python 解释器然后通过 hadoop-stream 的 -archives 选项把打包好的 python 解释器分发到每个执行节点中，然后指定使用这个解释器执行 python 脚本，节点就会自动解压这些包并执行相应脚本。

而在实际使用中发现打包的 python 解释器在测试环境没问题，到了实际的集群上就报错，排除了数据和脚本原因后怀疑还是 python 解释器运行有问题。把打包的 python 解释器传到服务器解包运行发现原来是 lib 文件夹下缺少了一些基础 python 库，这些库在 virtualenv 创建的环境中都是以软链接的形式保存的，所以当打包的 python 解释器在其他服务器上运行（如服务器上的 python 版本不同或没有 python 解释器或路径不同）这些软链接就会失效导致 python 解释器运行出错。解决办法有 2 种：

一、利用 conda 来创建一个 python 解释器的环境，也是本文推荐的方法

这种方法的好处在于可以指定安装任意 python 版本和第三方库，不像 virtualenv 一样是在原环境中复制 python 解释器然后再通过 pip 来安装第三方库，打包后移植性要来的更好一点。

举一个例子：

1. 新建一个环境：

conda create -n test python=2.7.12 numpy pandas

2. 打包，环境文件一般在 conda 目录的 envs 文件夹中，可通过 conda env list 查看：

tar cf test.tar test

3. 用 hadoop-stream 提交任务:

hadoop jar /usr/lib/hadoop/hadoop-streaming.jar \
-archives test.tar \
-input /user/testfiles \
-output /user/result \
-mapper “test.tar/test/bin/python mapper.py” \
-file mapper.py \
-reducer”test.tar/test/bin/python reducer.py” \
-file reducer.py

二、用 virtualenv 新建环境时不用软链接

按照官方文档，似乎在 virtualenv 命令后加入 –always-copy 选项则表示不使用软链接，但实际使用时会出错，不知道是否和我的测试环境有关系（CentOS Linux release 7.2.1511，python2.7.5)，一定要再加入 –no-setuptools –no-pip –no-wheel 才能成功创建环境，但没有这些工具安装第三方库很不方便，希望能有大神可以解决这一问题。

————————————– 分割线 ————————————–

下面关于 Hadoop 的文章您也可能喜欢，不妨看看：

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程 http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 6.3 下 Hadoop 伪分布式平台搭建 http://www.linuxidc.com/Linux/2016-11/136789.htm

Ubuntu 14.04 LTS 下安装 Hadoop 1.2.1（伪分布模式）http://www.linuxidc.com/Linux/2016-09/135406.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

实战 CentOS 系统部署 Hadoop 集群服务 http://www.linuxidc.com/Linux/2016-11/137246.htm

Hadoop2.3-HA 高可用集群环境搭建 http://www.linuxidc.com/Linux/2017-03/142155.htm

Hadoop 2.6.0 HA 高可用集群配置详解 http://www.linuxidc.com/Linux/2016-08/134180.htm

Spark 1.5、Hadoop 2.7 集群环境搭建 http://www.linuxidc.com/Linux/2016-09/135067.htm

在 Ubuntu X64 上编译安装 Hadoop http://www.linuxidc.com/Linux/2016-12/138568.htm

CentOS 6.7 安装 Hadoop 2.7.3 http://www.linuxidc.com/Linux/2017-01/139089.htm