阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

SparkSQL读取Hive中的数据

151次阅读
没有评论

共计 1976 个字符,预计需要花费 5 分钟才能阅读完成。

由于我 Spark 采用的是 Cloudera 公司的 CDH,并且安装的时候是在线自动安装和部署的集群。最近在学习 SparkSQL,看到 SparkSQL on HIVE。下面主要是介绍一下如何通过 SparkSQL 在读取 HIVE 的数据。

(说明:如果不是采用 CDH 在线自动安装和部署的话,可能需要对源码进行编译,使它能够兼容 HIVE。

编译的方式也很简单,只需要在 Spark_SRC_home(源码的 home 目录下)执行如下命令:

./make-distribution.sh –tgz -PHadoop-2.2 -Pyarn -DskipTests -Dhadoop.version=2.6.0-cdh5.4.4 -Phive

编译好了之后,会在 lib 目录下多几个 jar 包。)

下面我主要介绍一下我使用的情况:

1、为了让 Spark 能够连接到 Hive 的原有数据仓库,我们需要将 Hive 中的 hive-site.xml 文件拷贝到 Spark 的 conf 目录下,这样就可以通过这个配置文件找到 Hive 的元数据以及数据存放。

在这里由于我的 Spark 是自动安装和部署的,因此需要知道 CDH 将 hive-site.xml 放在哪里。经过摸索。该文件默认所在的路径是:/etc/hive/conf 下。

同理,spark 的 conf 也是在 /etc/spark/conf。

此时,如上所述,将对应的 hive-site.xml 拷贝到 spark/conf 目录下即可

如果 Hive 的元数据存放在 Mysql 中,我们还需要准备好 Mysql 相关驱动,比如:mysql-connector-java-5.1.22-bin.jar。

2、编写测试代码

val conf=new SparkConf().setAppName(“Spark-Hive”).setMaster(“local”)
val sc=new SparkContext(conf)
 
//create hivecontext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
 
sqlContext.sql(“CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ “)  // 这里需要注意数据的间隔符
 
sqlContext.sql(“LOAD DATA INPATH ‘/user/liujiyu/spark/kv1.txt’ INTO TABLE src  “);
 
sqlContext.sql(” SELECT * FROM jn1″).collect().foreach(println)
 
sc.stop()

 3、下面列举一下出现的问题:

(1)如果没有将 hive-site.xml 拷贝到 spark/conf 目录下,会出现:

 SparkSQL 读取 Hive 中的数据

分析:从错误提示上面就知道,spark 无法知道 hive 的元数据的位置,所以就无法实例化对应的 client。

解决的办法就是必须将 hive-site.xml 拷贝到 spark/conf 目录下

(2)测试代码中没有加 sc.stop 会出现如下错误:

ERROR scheduler.LiveListenerBus: Listener EventLoggingListener threw an exception
java.lang.reflect.InvocationTargetException

在代码最后一行添加 sc.stop() 解决了该问题。

Hive 编程指南 PDF 中文高清版  http://www.linuxidc.com/Linux/2015-01/111837.htm

基于 Hadoop 集群的 Hive 安装 http://www.linuxidc.com/Linux/2013-07/87952.htm

Hive 内表和外表的区别 http://www.linuxidc.com/Linux/2013-07/87313.htm

Hadoop + Hive + Map +reduce 集群安装部署 http://www.linuxidc.com/Linux/2013-07/86959.htm

Hive 本地独立模式安装 http://www.linuxidc.com/Linux/2013-06/86104.htm

Hive 学习之 WordCount 单词统计 http://www.linuxidc.com/Linux/2013-04/82874.htm

Hive 运行架构及配置部署 http://www.linuxidc.com/Linux/2014-08/105508.htm

Hive 的详细介绍 :请点这里
Hive 的下载地址 :请点这里

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2016-05/131569.htm

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-22发表,共计1976字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中