阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

基于Ubuntu Hadoop的群集搭建Hive

436次阅读
没有评论

共计 9668 个字符,预计需要花费 25 分钟才能阅读完成。

Hive 是 Hadoop 生态中的一个重要组成部分,主要用于数据仓库。前面的文章中我们已经搭建好了 Hadoop 的群集,下面我们在这个群集上再搭建 Hive 的群集。

1. 安装 MySQL

1.1 安装 MySQL Server

在 Ubuntu 下面安装 MySQL 的 Server 很简单,只需要运行:

sudo apt-get install mysql-server

系统会把 MySQL 下载并安装好。这里我们可以把 MySQL 安装在 master 机器上。

安装后需要配置用户名密码和远程访问。

1.2 配置用户名密码

首先我们以 root 身份登录到 mysql 服务器:

sudo mysql -u root

然后修改 root 的密码,并允许 root 远程访问:

GRANT ALL PRIVILEGES ON *.* TO root@'%' IDENTIFIED BY "123456";

我们这里还可以为 hive 建立一个用户,而不是用 root 用户:

GRANT ALL PRIVILEGES ON *.* TO hive@'%' IDENTIFIED BY "hive";

运行完成后 quit 命令即可退出 mysql 的命令行模式。

1.3 配置远程访问

默认情况下,MySQL 是只允许本机访问的,要允许远程机器访问需要修改配置文件

sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf

找到 bind-address 的配置部分,然后改为:

bind-address          = 0.0.0.0

保存,重启 mysql 服务

sudo service mysql restart

重启完成后,我们可以在 Windows 下,用 MySQL 的客户端连接 master 上的 MySQL 数据库,看是否能够远程访问。

2. 下载并配置 Hive

2.1 下载 Hive

首先我们到官方网站,找到 Hive 的下载地址。http://www.apache.org/dyn/closer.cgi/hive/ 会给出一个建议的网速快的下载地址。

然后在 master 服务器上,wget 下载 hive 的编译好的文件,我现在最新版是 Hive 2.1.1:

wget http://mirror.bit.edu.cn/apache/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz

下载完成后,解压这个压缩包

tar xf apache-hive-2.1.1-bin.tar.gz

按之前 Hadoop 的惯例,我们还是把 Hive 安装到 /usr/local 目录下吧,所以移动 Hive 文件:

sudo mv apache-hive-2.1.1-bin /usr/local/hive

2.2 配置环境变量

sudo vi /etc/profile

增加如下配置:

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:/usr/local/hive/lib

2.3 配置 hive-env.sh

 所有 Hive 的配置是在 /usr/local/hive/conf 目录下,进入这个目录,我们需要先基于模板新建 hive-env.sh 文件:
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
 指定 Hadoop 的路径,增加以下行:
HADOOP_HOME=/usr/local/hadoop

2.4 配置 hive-site.xml

cp hive-default.xml.template hive-site.xml
vi hive-site.xml
 首先增加 mysql 数据库的连接配置:
基于 Ubuntu Hadoop 的群集搭建 Hive
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
  <description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
  <description>Driver class name for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
  <description>username to use against metastore database</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive</value>
  <description>password to use against metastore database</description>
</property>
基于 Ubuntu Hadoop 的群集搭建 Hive
 然后需要修改临时文件夹的路径,找到以下 2 个配置,并改为正确的路径:
基于 Ubuntu Hadoop 的群集搭建 Hive
<property> 
 <name>hive.exec.local.scratchdir</name>
 <value>/home/hduser/iotmp</value>
 <description>Local scratch space for Hive jobs</description>
 </property>
 <property>
 <name>hive.downloaded.resources.dir</name>
 <value>/home/hduser/iotmp</value>
 <description>Temporary local directory for added resources in the remote file system.</description>
 </property>
基于 Ubuntu Hadoop 的群集搭建 Hive

这里因为我当前用户是 hduser,所以我在 hduser 的目录下创建一个 iotmp 文件夹,并授权:

mkdir -p /home/hduser/iotmp 
chmod -R 775 /home/hduser/iotmp

2.5 修改 hive-config.sh

 进入目录 /usr/local/hive/bin
vi hive-config.sh
 在该文件的最前面加入以下配置:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 
export HADOOP_HOME=/usr/local/hadoop 
export HIVE_HOME=/usr/local/hive

2.6 下载 MySQL JDBC 驱动

去 MySQL 的官网,https://dev.mysql.com/downloads/connector/j/  下载 JDBC 驱动到 master 服务器上。

wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.40.tar.gz

下载完后解压

tar xf mysql-connector-java-5.1.40.tar.gz

然后进入解压后的目录,把 jar 包复制到 Hive/lib 目录下面

cp mysql-connector-java-5.1.40-bin.jar /usr/local/hive/lib/

2.7 在 HDFS 中创建目录和设置权限

启动 Hadoop,在 Hadoop 中创建 Hive 需要用到的目录并设置好权限:

hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

2.8 初始化 meta 数据库

 进入 /usr/local/hive/lib 目录,初始化 Hive 元数据对应的 MySQL 数据库:
schematool -initSchema -dbType mysql

3. 使用 Hive

 在命令行下,输入 hive 命令即可进入 Hive 的命令行模式。我们可以查看当前有哪些数据库,哪些表:
show databases;
show tables;
 关于 hive 命令下有哪些命令,具体介绍,可以参考官方文档:https://cwiki.apache.org/confluence/display/Hive/Home

3.1 创建表

 和普通的 SQL 创建表没有太大什么区别,主要是为了方便,我们设定用 \t 来分割每一行的数据。比如我们要创建一个用户表:
create table Users (ID int,Name String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

3.2 插入数据

 是 insert 语句可以插入单条数据:
insert into Users values(1,'Devin');
 如果要导入数据 
 我们在 Ubuntu 下创建一个 name.txt 文件,然后编辑其中的内容,添加如下内容:

2      Edward
3      Mindy
4      Dave
5      Joseph
6      Leo

列直接我是用 Tab 隔开的。

如果想把这个 txt 文件导入 hive 的 Users 表,那么只需要在 hive 中执行:

LOAD DATA LOCAL INPATH '/home/hduser/names.txt' into table Users ;

3.3 查询数据

 仍然是 sql 语句:
select * from Users ;
 当然我们也可以跟条件的查询语句:
select * from Users where Name like 'D%';

3.4 增加一个字段

 比如我们要增加生日这个字段,那么语句为:
alter table Users add columns (BirthDate date);

3.5 查询表定义

 我们看看表的结构是否已经更改,查看 Users 表的定义:
desc Users;

3.6 其他

 另外还有重名了表,删除表等,基本也是 SQL 的语法:
alter table Users rename to Student;
 删除一个表中的所有数据:
truncate table Student;
【另外需要注意,Hive 不支持 update 和 delete 语句。似乎只有先 truncate 然后在重新 insert。】

Hive 编程指南 PDF 中文高清版  http://www.linuxidc.com/Linux/2015-01/111837.htm

基于 Hadoop 集群的 Hive 安装 http://www.linuxidc.com/Linux/2013-07/87952.htm

Hive 内表和外表的区别 http://www.linuxidc.com/Linux/2013-07/87313.htm

Hadoop + Hive + Map +reduce 集群安装部署 http://www.linuxidc.com/Linux/2013-07/86959.htm

Hive 本地独立模式安装 http://www.linuxidc.com/Linux/2013-06/86104.htm

Hive 学习之 WordCount 单词统计 http://www.linuxidc.com/Linux/2013-04/82874.htm

Hive 运行架构及配置部署 http://www.linuxidc.com/Linux/2014-08/105508.htm

Hive 的详细介绍 :请点这里
Hive 的下载地址 :请点这里

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2016-12/138699.htm

Hive 是 Hadoop 生态中的一个重要组成部分,主要用于数据仓库。前面的文章中我们已经搭建好了 Hadoop 的群集,下面我们在这个群集上再搭建 Hive 的群集。

1. 安装 MySQL

1.1 安装 MySQL Server

在 Ubuntu 下面安装 MySQL 的 Server 很简单,只需要运行:

sudo apt-get install mysql-server

系统会把 MySQL 下载并安装好。这里我们可以把 MySQL 安装在 master 机器上。

安装后需要配置用户名密码和远程访问。

1.2 配置用户名密码

首先我们以 root 身份登录到 mysql 服务器:

sudo mysql -u root

然后修改 root 的密码,并允许 root 远程访问:

GRANT ALL PRIVILEGES ON *.* TO root@'%' IDENTIFIED BY "123456";

我们这里还可以为 hive 建立一个用户,而不是用 root 用户:

GRANT ALL PRIVILEGES ON *.* TO hive@'%' IDENTIFIED BY "hive";

运行完成后 quit 命令即可退出 mysql 的命令行模式。

1.3 配置远程访问

默认情况下,MySQL 是只允许本机访问的,要允许远程机器访问需要修改配置文件

sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf

找到 bind-address 的配置部分,然后改为:

bind-address          = 0.0.0.0

保存,重启 mysql 服务

sudo service mysql restart

重启完成后,我们可以在 Windows 下,用 MySQL 的客户端连接 master 上的 MySQL 数据库,看是否能够远程访问。

2. 下载并配置 Hive

2.1 下载 Hive

首先我们到官方网站,找到 Hive 的下载地址。http://www.apache.org/dyn/closer.cgi/hive/ 会给出一个建议的网速快的下载地址。

然后在 master 服务器上,wget 下载 hive 的编译好的文件,我现在最新版是 Hive 2.1.1:

wget http://mirror.bit.edu.cn/apache/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz

下载完成后,解压这个压缩包

tar xf apache-hive-2.1.1-bin.tar.gz

按之前 Hadoop 的惯例,我们还是把 Hive 安装到 /usr/local 目录下吧,所以移动 Hive 文件:

sudo mv apache-hive-2.1.1-bin /usr/local/hive

2.2 配置环境变量

sudo vi /etc/profile

增加如下配置:

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:/usr/local/hive/lib

2.3 配置 hive-env.sh

 所有 Hive 的配置是在 /usr/local/hive/conf 目录下,进入这个目录,我们需要先基于模板新建 hive-env.sh 文件:
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
 指定 Hadoop 的路径,增加以下行:
HADOOP_HOME=/usr/local/hadoop

2.4 配置 hive-site.xml

cp hive-default.xml.template hive-site.xml
vi hive-site.xml
 首先增加 mysql 数据库的连接配置:
基于 Ubuntu Hadoop 的群集搭建 Hive
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
  <description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
  <description>Driver class name for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
  <description>username to use against metastore database</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive</value>
  <description>password to use against metastore database</description>
</property>
基于 Ubuntu Hadoop 的群集搭建 Hive
 然后需要修改临时文件夹的路径,找到以下 2 个配置,并改为正确的路径:
基于 Ubuntu Hadoop 的群集搭建 Hive
<property> 
 <name>hive.exec.local.scratchdir</name>
 <value>/home/hduser/iotmp</value>
 <description>Local scratch space for Hive jobs</description>
 </property>
 <property>
 <name>hive.downloaded.resources.dir</name>
 <value>/home/hduser/iotmp</value>
 <description>Temporary local directory for added resources in the remote file system.</description>
 </property>
基于 Ubuntu Hadoop 的群集搭建 Hive

这里因为我当前用户是 hduser,所以我在 hduser 的目录下创建一个 iotmp 文件夹,并授权:

mkdir -p /home/hduser/iotmp 
chmod -R 775 /home/hduser/iotmp

2.5 修改 hive-config.sh

 进入目录 /usr/local/hive/bin
vi hive-config.sh
 在该文件的最前面加入以下配置:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 
export HADOOP_HOME=/usr/local/hadoop 
export HIVE_HOME=/usr/local/hive

2.6 下载 MySQL JDBC 驱动

去 MySQL 的官网,https://dev.mysql.com/downloads/connector/j/  下载 JDBC 驱动到 master 服务器上。

wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.40.tar.gz

下载完后解压

tar xf mysql-connector-java-5.1.40.tar.gz

然后进入解压后的目录,把 jar 包复制到 Hive/lib 目录下面

cp mysql-connector-java-5.1.40-bin.jar /usr/local/hive/lib/

2.7 在 HDFS 中创建目录和设置权限

启动 Hadoop,在 Hadoop 中创建 Hive 需要用到的目录并设置好权限:

hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

2.8 初始化 meta 数据库

 进入 /usr/local/hive/lib 目录,初始化 Hive 元数据对应的 MySQL 数据库:
schematool -initSchema -dbType mysql

3. 使用 Hive

 在命令行下,输入 hive 命令即可进入 Hive 的命令行模式。我们可以查看当前有哪些数据库,哪些表:
show databases;
show tables;
 关于 hive 命令下有哪些命令,具体介绍,可以参考官方文档:https://cwiki.apache.org/confluence/display/Hive/Home

3.1 创建表

 和普通的 SQL 创建表没有太大什么区别,主要是为了方便,我们设定用 \t 来分割每一行的数据。比如我们要创建一个用户表:
create table Users (ID int,Name String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

3.2 插入数据

 是 insert 语句可以插入单条数据:
insert into Users values(1,'Devin');
 如果要导入数据 
 我们在 Ubuntu 下创建一个 name.txt 文件,然后编辑其中的内容,添加如下内容:

2      Edward
3      Mindy
4      Dave
5      Joseph
6      Leo

列直接我是用 Tab 隔开的。

如果想把这个 txt 文件导入 hive 的 Users 表,那么只需要在 hive 中执行:

LOAD DATA LOCAL INPATH '/home/hduser/names.txt' into table Users ;

3.3 查询数据

 仍然是 sql 语句:
select * from Users ;
 当然我们也可以跟条件的查询语句:
select * from Users where Name like 'D%';

3.4 增加一个字段

 比如我们要增加生日这个字段,那么语句为:
alter table Users add columns (BirthDate date);

3.5 查询表定义

 我们看看表的结构是否已经更改,查看 Users 表的定义:
desc Users;

3.6 其他

 另外还有重名了表,删除表等,基本也是 SQL 的语法:
alter table Users rename to Student;
 删除一个表中的所有数据:
truncate table Student;
【另外需要注意,Hive 不支持 update 和 delete 语句。似乎只有先 truncate 然后在重新 insert。】

Hive 编程指南 PDF 中文高清版  http://www.linuxidc.com/Linux/2015-01/111837.htm

基于 Hadoop 集群的 Hive 安装 http://www.linuxidc.com/Linux/2013-07/87952.htm

Hive 内表和外表的区别 http://www.linuxidc.com/Linux/2013-07/87313.htm

Hadoop + Hive + Map +reduce 集群安装部署 http://www.linuxidc.com/Linux/2013-07/86959.htm

Hive 本地独立模式安装 http://www.linuxidc.com/Linux/2013-06/86104.htm

Hive 学习之 WordCount 单词统计 http://www.linuxidc.com/Linux/2013-04/82874.htm

Hive 运行架构及配置部署 http://www.linuxidc.com/Linux/2014-08/105508.htm

Hive 的详细介绍 :请点这里
Hive 的下载地址 :请点这里

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2016-12/138699.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计9668字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19351
评论数
4
阅读量
7985973
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare 也瘫了连监控都挂,根因藏在哪? 最近两天的互联网堪称“故障...
150元打造低成本NAS小钢炮,捡一块3865U工控板

150元打造低成本NAS小钢炮,捡一块3865U工控板

150 元打造低成本 NAS 小钢炮,捡一块 3865U 工控板 一块二手的熊猫 B3 工控板 3865U,搭...
把小米云笔记搬回家:飞牛 NAS 一键部署,小米云笔记自动同步到本地

把小米云笔记搬回家:飞牛 NAS 一键部署,小米云笔记自动同步到本地

把小米云笔记搬回家:飞牛 NAS 一键部署,小米云笔记自动同步到本地 大家好,我是星哥,今天教大家在飞牛 NA...
恶意团伙利用 PHP-FPM 未授权访问漏洞发起大规模攻击

恶意团伙利用 PHP-FPM 未授权访问漏洞发起大规模攻击

恶意团伙利用 PHP-FPM 未授权访问漏洞发起大规模攻击 PHP-FPM(FastCGl Process M...
2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025 年 11 月 28 日 -Cloudflare 史诗级事故: 一次配置失误,引爆全球宕机 前言 继今...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛 NAS 硬件 02:某鱼 6 张左右就可拿下 5 盘位的飞牛圣体 NAS 前言 大家好,我是星...
星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛 NAS-11:咪咕视频订阅部署全攻略 前言 在家庭影音系统里,NAS 不仅是存储中心,更是内容...
每年0.99刀,拿下你的第一个顶级域名,详细注册使用

每年0.99刀,拿下你的第一个顶级域名,详细注册使用

每年 0.99 刀,拿下你的第一个顶级域名,详细注册使用 前言 作为长期折腾云服务、域名建站的老玩家,星哥一直...
每天一个好玩的网站-手机博物馆-CHAZ 3D Experience

每天一个好玩的网站-手机博物馆-CHAZ 3D Experience

每天一个好玩的网站 - 手机博物馆 -CHAZ 3D Experience 一句话介绍:一个用 3D 方式重温...
12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换,告别多工具切换

12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换,告别多工具切换

12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换...