阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Cloudera Manager和CDH4.1的安装

282次阅读
没有评论

共计 5205 个字符,预计需要花费 14 分钟才能阅读完成。

刚开始安装时,觉得是各种麻烦。现在反思以下,觉得这个过程也不是太麻烦。下面我就把我在整个安装过程中,叙述如下,如果整个过程理解有错或不到位的地方,欢迎咱们互相交流,共同进步。

Cloudera Manager 的安装需要先修改机器的三个配置:

关闭防火墙:service iptables stop;

关闭 selinux:setenforce 0 或修改 /etc/selinux/config:SELINUX=disabled;

配置代理:在 /etc/yum.conf 加入如下内容:http_proxy=http://server:port。

最好在 /etc/yum.conf 增加 timeout 时间,timeout=55555。自己设置长点就行。

准备安装文件 cloudera-manager-installer.bin,这是个二进制文件,下载地址:https://ccp.cloudera.com/display/SUPPORT/Cloudera+Manager+Downloads,这个要在 64 位的机器上运行,我让它运行在 CentOS-6.2,x86_64 上。然后设置下执行权限,chmod u+x cloudera-manager-installer.bin,接着就直接执行它./ cloudera-manager-installer.bin。这里有个问题,在我自己的虚拟机上一直运行不了,出现的问题:cannot execute binary file,可能因为它是 32 位的吧。

在整个安装过程中,要确保你的机器能够联网,会出现让你选择的画面,一般就 ENTER,next,accpet 就行了,然后慢慢等待等到它自行安装结束。

启动 cloudera manager:在浏览器输入你的主机,我的是 http:192.168.20.195:7180。注册一个账号登陆如(admin,admin),进去后,会让我们选择主机,我就装了伪分布式,然后安装 CDH4.1 和 impala,这个安装过程时间比较长,因为它是外国的网站,网络稳定与否对安装的影响很大,我装这个花费很长时间,期间如果出现某个安装包错误,就必须重新开始安装,因此强调下,最好使用一个干净的系统(没装过 Hadoop 相关程序),它会去网上下载很多 rpm 包,默认地把 hadoop,hbase,zookeeper,hive,impala 等都装到了 user/lib 底下,耐心等待吧。

安装好了之后,我们就可以启动自己需要的服务,当然某些服务彼此会有依赖,没关系的 cloudera manager 太强大了,它能帮你识别,帮助你开启相关服务。我开启的服务界面如下图所示:

Cloudera Manager 和 CDH4.1 的安装

在开启服务的过程中,其他的服务都正常开启了,但是最关键的我需要的服务却一直显示不良状态,如下图:

Cloudera Manager 和 CDH4.1 的安装

Impala 没正常启动,这是我这次研究的重中之重。出现问题,就开始找问题,后来发现是 impala 和数据库(我用的是 mysql)没连接成功。下面着重讲述下配置 mysql 连接 impala。

Impala 的运行需要有配置了 Mysql 或 PostgreSQL 的 hive metastore,hive 本身支持的 derby 数据库,impala 不支持。

一、配置远程数据库作为 Hive Mestastore。

A: 安装 MySQL JDBC 连接器,从 ’http://www.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.22.tar.gz 下载连接器,并把解压后的 mysql-connector-java-5.1.22-bin.jar 文件拷贝至 /usr/lib/hive/lib 下。

B:MySQL 管理员需要用 hive-schema-0.9.0.mysql.sql 来建立初始数据库:

$ mysql –u root –p

mysql > CREATE DATABASE hivemetastoredb;

mysql > USE hivemetastoredb;

mysql > SOURCE /usr/lib/hive/scripts/metastore/upgrade/mysql/

hive-schema-0.9.0.mysql.sql;

mysql > CREATE USER‘hive’@’%’IDENTIFIED BY‘hive’;

mysql > CREATE ALL PRIVILEGES ON hivemetastoredb.* TO‘hive’@’%’WITH GRANT OPTION;

mysql > FLUSH PRIVILEGES;

mysql > QUIT;

C: 配置 mysql 用 utf8 作为默认的字符编码。

$ vim /etc/my.cnf

在 [mysqld] 下加入

Default-character-set=utf8

这是因为,impala 去连接 mysql 时所用到的连接字符串为:URL=”jdbc:mysql://localhost:3306/hivemetastoredb?useUnicode=true&characterEncoding=UTF-8”,它默认用的就是 utf8。

二、新增 Impala 服务

进入 cloudera manager 管理界面,新增 impala 服务,点击 impala,点击配置,可看到如下界面:

Cloudera Manager 和 CDH4.1 的安装

在这个配置里面,需要配置如下参数:

Property

Value

DataNode Local Path Access Users dfs.block.local-path-access.user

impala

DataNode Data Directory Permissions dfs.datanode.data.dir.perm

755

Enable HDFS Block Metadata API dfs.datanode.hdfs-blocks-metadata.enabled

true

Enable HDFS Short Circuit Read dfs.client.read.shortcircuit

true

Hive Metastore 的配置如上图所示,数据库连接密码:hive。

三、配置好 impala 后,点击重新启动 impala。启动成功后可以看到如下界面:

Cloudera Manager 和 CDH4.1 的安装

两个服务都完成,才算 impala 启动成功。

配置 Hue Beeswax 连接到 Impala。

这个配置是为了让 Hue Beeswax 网站接口来执行 Impala 语句。修改 /etc/hue/hue.ini,如下内容:

[beeswax]

beeswax_server_host=192.168.20.195

beeswax_server_port=8003

重启 Hue 服务。至此,impala 这个服务也算是正常启动了。

最后说明一下,这次配置遇到的问题及解决方法。

问题一:无法安装 Hadoop-hdfs 包。

如下图所示:

Cloudera Manager 和 CDH4.1 的安装

图中说明的错误是:事务验证出错,后面的信息显示了是版本冲突问题。也就是说,本来电脑里面已经有装了 hadoop-1.0.3 现在和 cloudera 的 hadoop-hdfs-2.0.0 冲突,导致 hadoo-hdfs 无法安装,也就使得安装失败,又得重新来一次了,悲剧啊。

解决问题,我找到了系统里安装 hadoop-1.0.3 的所有包,然后把它们全部删掉,包括安装的目录。

$ rpm –qa | grep –i hadoop-1.0.3

hadoop-1.0.3+20.38283-1.el6.x86_64

$ rpm –ql hadoop-1.0.3+20.38283-1.el6.x86_64(查找安装的位置)

$ rpm –e hadoop-1.0.3+20.38283-1.el6.x86_64(卸载)

卸载过程中,可能会有包依赖,没关系,继续按照上述方法把他们全部删光,重新安装就行啦。

问题二:启动 impala 时,impala daemon 无法启动,查看日志出现如下问题。

Cloudera Manager 和 CDH4.1 的安装

这个问题,说是连接到 mysql 被禁止,但是我用 java 自己做了个程序去连接 mysql 没有问题,很奇怪,

javax.jdo.JDOFatalDataStoreException: Access denied for user ‘hive’@’localhost’ (using password: YES),最主要是这句话,我本来连接数据库是,用 root 登录 mysql 建立了个新用户 hive,然后不使用密码,同时在 impala 中的配置目录里,默认数据库用户 hive 登录也是不需要密码的,但是却始终连不上,后来经过分析这句话,using password:YES,也就是说,本来不需要密码,你却用了密码登陆到 mysql,这就有问题了,也就是说,虽然配置里的密码是空的,但是 impala 默认还是以有密码的形式登录到 mysql,这样连接就一直被禁止了。解决的方案是:删掉 hive 用户,建立一个用户名和密码都是 hive 的用户接着,把配置里密码也输入 hive,问题终于解决了。

问题三:如下图,这个问题不大,没什么影响。

Cloudera Manager 和 CDH4.1 的安装

安装到此算告一段落了,但是还有很多问题需要让我去探究,cloudera 这么一个开源的,强大的公司,做的产品也是如此之美,我才只是初涉浅滩,摆在目前还有很多问题不能解决,如下:

1:impa 为什么要依赖 hive 呢,又为何要独立配置数据库,

2:impalad 和 impala-state-store 之间的具体关系是怎样的。

3:impala 可以直接操作 hdfs,那为什么启动服务时,它有依赖于 HBase;

4:现在只是配置了伪分布式,在大型集群中,又该如何操作它们。

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

刚开始安装时,觉得是各种麻烦。现在反思以下,觉得这个过程也不是太麻烦。下面我就把我在整个安装过程中,叙述如下,如果整个过程理解有错或不到位的地方,欢迎咱们互相交流,共同进步。

Cloudera Manager 的安装需要先修改机器的三个配置:

关闭防火墙:service iptables stop;

关闭 selinux:setenforce 0 或修改 /etc/selinux/config:SELINUX=disabled;

配置代理:在 /etc/yum.conf 加入如下内容:http_proxy=http://server:port。

最好在 /etc/yum.conf 增加 timeout 时间,timeout=55555。自己设置长点就行。

准备安装文件 cloudera-manager-installer.bin,这是个二进制文件,下载地址:https://ccp.cloudera.com/display/SUPPORT/Cloudera+Manager+Downloads,这个要在 64 位的机器上运行,我让它运行在 CentOS-6.2,x86_64 上。然后设置下执行权限,chmod u+x cloudera-manager-installer.bin,接着就直接执行它./ cloudera-manager-installer.bin。这里有个问题,在我自己的虚拟机上一直运行不了,出现的问题:cannot execute binary file,可能因为它是 32 位的吧。

在整个安装过程中,要确保你的机器能够联网,会出现让你选择的画面,一般就 ENTER,next,accpet 就行了,然后慢慢等待等到它自行安装结束。

启动 cloudera manager:在浏览器输入你的主机,我的是 http:192.168.20.195:7180。注册一个账号登陆如(admin,admin),进去后,会让我们选择主机,我就装了伪分布式,然后安装 CDH4.1 和 impala,这个安装过程时间比较长,因为它是外国的网站,网络稳定与否对安装的影响很大,我装这个花费很长时间,期间如果出现某个安装包错误,就必须重新开始安装,因此强调下,最好使用一个干净的系统(没装过 Hadoop 相关程序),它会去网上下载很多 rpm 包,默认地把 hadoop,hbase,zookeeper,hive,impala 等都装到了 user/lib 底下,耐心等待吧。

安装好了之后,我们就可以启动自己需要的服务,当然某些服务彼此会有依赖,没关系的 cloudera manager 太强大了,它能帮你识别,帮助你开启相关服务。我开启的服务界面如下图所示:

Cloudera Manager 和 CDH4.1 的安装

在开启服务的过程中,其他的服务都正常开启了,但是最关键的我需要的服务却一直显示不良状态,如下图:

Cloudera Manager 和 CDH4.1 的安装

Impala 没正常启动,这是我这次研究的重中之重。出现问题,就开始找问题,后来发现是 impala 和数据库(我用的是 mysql)没连接成功。下面着重讲述下配置 mysql 连接 impala。

Impala 的运行需要有配置了 Mysql 或 PostgreSQL 的 hive metastore,hive 本身支持的 derby 数据库,impala 不支持。

正文完
星哥说事-微信公众号
post-qrcode
 
星锅
版权声明:本站原创文章,由 星锅 2022-01-20发表,共计5205字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中