阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Linux下Spark开发环境搭建

574次阅读
没有评论

共计 3000 个字符,预计需要花费 8 分钟才能阅读完成。

开发环境总体版本信息如下:

1、Linux:CentOS 6.8

2、Java 版本:jdk-8u172-linux-x64.tar.gz

3、Hadoop 版本:hadoop-3.1.0.tar.gz

4、scala 版本:scala-2.12.6.tgz

5、Python 版本:Python-3.6.5.tgz

6、spark 版本:spark-2.3.0-bin-hadoop2.7.tgz

7、zookeeper 版本:zookeeper-3.4.10.tar.gz

8、hive 版本:

9、kafka 版本:

10、服务器集群:192.168.0.110(master),192.168.0.111(slave1),192.168.0.112(slave2)

一、java 的安装

1、上传 jdk 安装包到 /usr/local/lib 目录下,并解压缩

Linux 下 Spark 开发环境搭建

2、把解压的文件夹复制到另外两台机子

Linux 下 Spark 开发环境搭建

3、三台服务器分别修改 bigdata 用户的环境变量

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

4、使配置生效并验证

Linux 下 Spark 开发环境搭建

二、hadoop 的安装

1、bigdata 用户家目录下创建目录 bigdata,上传 hadoop 安装包并解压

Linux 下 Spark 开发环境搭建

2、进入 hadoop 配置文件目录,修改 hadoop 配置

Linux 下 Spark 开发环境搭建

3、修改 core-site.xml,添加红色方框的内容

Linux 下 Spark 开发环境搭建

4、修改 hdfs-site.xml,并创建对应的目录

Linux 下 Spark 开发环境搭建

 Linux 下 Spark 开发环境搭建

5、修改 yarn-site.xml

Linux 下 Spark 开发环境搭建

6、修改 workers(老版本为 slaves)

Linux 下 Spark 开发环境搭建

7、修改 hadoop-env.sh,增加 JAVA_HOME

Linux 下 Spark 开发环境搭建

8、把 master 上配置好的 hadoop 分发到每一个 slave 上

Linux 下 Spark 开发环境搭建

9、只需在 master 上 bigdata 用户下配置环境变量

Linux 下 Spark 开发环境搭建

10、使环境变量生效并检查

Linux 下 Spark 开发环境搭建

11、首次运行 hdfs,需要先格式化 hdfs【hdfs namenode -format】,然后启动 hdfs【start-dfs.sh】

Linux 下 Spark 开发环境搭建

12、可访问 http://192.168.0.110:9870【192.168.0.110 为 master 的 ip 地址,老版本 hadoop 的端口为 50070】看下是否部署成功;如需停止 hdfs,使用【stop-dfs.sh】

Linux 下 Spark 开发环境搭建

13、也可输入名 jps,查看是否有以下进程

Linux 下 Spark 开发环境搭建

14、启动 yarn【start-yarn.sh】

 Linux 下 Spark 开发环境搭建

15、访问 http://192.168.0.110:8088/cluster,查看 yarn 是否正常工作,停止 yarn 使用【stop-yarn.sh】

Linux 下 Spark 开发环境搭建

16、也可输入名 jps,查看是否有以下进程

Linux 下 Spark 开发环境搭建

综上,hadoop 集群安装完毕!

三、scala 的安装

1、切换到 root 用户下,下载 scala 并上传到 /usr/local/lib 目录下,然后解压

Linux 下 Spark 开发环境搭建

2、把解压后的文件分发到 slave1 和 slave2

 scp -r scala-2.12.6 root@slave1:/usr/local/lib

 scp -r scala-2.12.6 root@slave2:/usr/local/lib

3、分别在三台服务器上修改 bigdata 用户的环境变量

Linux 下 Spark 开发环境搭建

4、验证环境变量是否生效

Linux 下 Spark 开发环境搭建

5、运行 scala 命令验证是否安装成功,并按 ctrl+ z 退出

Linux 下 Spark 开发环境搭建

四、python 的安装

1、在集群上运行 pyspark,需要先安装 zlib 和 gcc 相关的软件包

Linux 下 Spark 开发环境搭建

yum -y install gcc*

2、下载 python 安装包,并上传,然后解压

Linux 下 Spark 开发环境搭建

3、进入 /usr/local/lib/,修改 Modules/Setup.dist【老版本是 Setup】,找到红色一行,并把注释去掉

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

4、执行./configure

5、make

6、make install

7、查看系统原有 python 版本,并重命名

Linux 下 Spark 开发环境搭建

8、修改 /usr/bin/yum

Linux 下 Spark 开发环境搭建

9、重新建立 python 的软连接

Linux 下 Spark 开发环境搭建

7、执行 python 命令,检查是否安装好

Linux 下 Spark 开发环境搭建

五、spark 的安装

 1、下载并上传 spark 安装文件到 bigdata 用户家目录下的 bigdata 目录下,然后解压

Linux 下 Spark 开发环境搭建

2、配置 slaves

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

3、配置 spark-env.sh

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

4、把配置好的 spark 分发 slave1 和 slave2 上面

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata

5、在 master 上配置环境变量

Linux 下 Spark 开发环境搭建

source ~/.bash_profile

6、启动 spark

Linux 下 Spark 开发环境搭建

7、确认 spark 已经启动【jps 命令,或者访问 http://192.168.0.110:8080】

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

8、测试 spark 代码【ctrl+ z 退出】

Linux 下 Spark 开发环境搭建

六、zookeeper 的安装

1、下载并上传 zookeeper 文件,然后解压

Linux 下 Spark 开发环境搭建

2、修改配置文件

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

 

3、创建配置文件配置的目录

Linux 下 Spark 开发环境搭建

4、将配置好的 zookeeper 分发到 slave1 和 slave2

Linux 下 Spark 开发环境搭建

5、分别在 3 台服务器的~/bigdata/zookeeper/data 目录中新增文件 myid 并修改

Linux 下 Spark 开发环境搭建

master 上 myid 的内容为:0

slave1 上 myid 的内容为:1

slave2 上 myid 的内容为:2

6、分别到 3 台服务器中启动节点 zk 服务

Linux 下 Spark 开发环境搭建

7、查看每一个服务器上的 zk 的状态

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

七、hive 的安装

1、安装 MySQL

安装:yum install -y  mysql-server

启动:service mysqld start

修改 root 用户密码:mysqladmin -u root password ‘root’

创建数据库 hive 并授权:

Linux 下 Spark 开发环境搭建

2、下载并上传 hive 安装包,然后解压

Linux 下 Spark 开发环境搭建

3、进入配置目录【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】,修改配置文件 hive-site.xml

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

4、编辑 hive-env.sh

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

5、下载 mysql 的 jdbc 驱动 mysql-connector-java-5.1.44-bin.jar,上传 /home/bigdata/bigdata/apache-hive-2.3.3-bin/lib

Linux 下 Spark 开发环境搭建

6、配置 master 的环境变量

Linux 下 Spark 开发环境搭建

source ~/.bash_profile

7、创建 hive-site.xml 里面配置的目录并授权

Linux 下 Spark 开发环境搭建

8、指定 hive 数据库类型并初始化

Linux 下 Spark 开发环境搭建

9、验证 hive 的 mysql 数据库是否安装成功【hive 数据库下面是否有表】

Linux 下 Spark 开发环境搭建

 10、运行 hive 前首先要确保 meta store 服务已经启动:先创建 hive 运行日志目录 logs,再运行 HIVE

Linux 下 Spark 开发环境搭建

验证:

 Linux 下 Spark 开发环境搭建

运行 HIVE

Linux 下 Spark 开发环境搭建

八、kafka 的安装

 1、下载 kafka 并上传,然后解压

Linux 下 Spark 开发环境搭建

 2、创建日志目录,修改配置文件

mkdir /home/bigdata/bigdata/kafka-logs-new

 Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

Linux 下 Spark 开发环境搭建

 

3、将 kafka 分发到 slave1 和 slave2

Linux 下 Spark 开发环境搭建

4、分别修改 slave1 和 slave2 上面的 server.properties 文件

slave1:broker.id=1

 slave2:broker.id=2

5、分别在三台服务器上启动 broker server

Linux 下 Spark 开发环境搭建

nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &

 6、在 master 上创建 topic

Linux 下 Spark 开发环境搭建

7、查看 topic

Linux 下 Spark 开发环境搭建

8、启动 producer 发送消息

Linux 下 Spark 开发环境搭建

9、启动 consumer 消费消息

Linux 下 Spark 开发环境搭建

10、效果如下

 Linux 下 Spark 开发环境搭建

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计3000字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19348
评论数
4
阅读量
7782963
文章搜索
热门文章
开发者必备神器:阿里云 Qoder CLI 全面解析与上手指南

开发者必备神器:阿里云 Qoder CLI 全面解析与上手指南

开发者必备神器:阿里云 Qoder CLI 全面解析与上手指南 大家好,我是星哥。之前介绍了腾讯云的 Code...
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
云服务器部署服务器面板1Panel:小白轻松构建Web服务与面板加固指南

云服务器部署服务器面板1Panel:小白轻松构建Web服务与面板加固指南

云服务器部署服务器面板 1Panel:小白轻松构建 Web 服务与面板加固指南 哈喽,我是星哥,经常有人问我不...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
安装并使用谷歌AI编程工具Antigravity(亲测有效)

安装并使用谷歌AI编程工具Antigravity(亲测有效)

  安装并使用谷歌 AI 编程工具 Antigravity(亲测有效) 引言 Antigravity...
【开源神器】微信公众号内容单篇、批量下载软件

【开源神器】微信公众号内容单篇、批量下载软件

【开源神器】微信公众号内容单篇、批量下载软件 大家好,我是星哥,很多人都希望能高效地保存微信公众号的文章,用于...
2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025 年 11 月 28 日 -Cloudflare 史诗级事故: 一次配置失误,引爆全球宕机 前言 继今...
星哥带你玩飞牛NAS-5:飞牛NAS中的Docker功能介绍

星哥带你玩飞牛NAS-5:飞牛NAS中的Docker功能介绍

星哥带你玩飞牛 NAS-5:飞牛 NAS 中的 Docker 功能介绍 大家好,我是星哥,今天给大家带来如何在...
星哥带你玩飞牛NAS-7:手把手教你免费内网穿透-Cloudflare tunnel

星哥带你玩飞牛NAS-7:手把手教你免费内网穿透-Cloudflare tunnel

星哥带你玩飞牛 NAS-7:手把手教你免费内网穿透 -Cloudflare tunnel 前言 大家好,我是星...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
还在找免费服务器?无广告免费主机,新手也能轻松上手!

还在找免费服务器?无广告免费主机,新手也能轻松上手!

还在找免费服务器?无广告免费主机,新手也能轻松上手! 前言 对于个人开发者、建站新手或是想搭建测试站点的从业者...
颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

  颠覆 AI 开发效率!开源工具一站式管控 30+ 大模型 ApiKey,秘钥付费 + 负载均衡全...
每年0.99刀,拿下你的第一个顶级域名,详细注册使用

每年0.99刀,拿下你的第一个顶级域名,详细注册使用

每年 0.99 刀,拿下你的第一个顶级域名,详细注册使用 前言 作为长期折腾云服务、域名建站的老玩家,星哥一直...
三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

  三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Andr...
开发者福利:免费 .frii.site 子域名,一分钟申请即用

开发者福利:免费 .frii.site 子域名,一分钟申请即用

  开发者福利:免费 .frii.site 子域名,一分钟申请即用 前言 在学习 Web 开发、部署...