阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Ubuntu 14.04 LTS 安装 Spark 1.6.0 (伪分布式)

120次阅读
没有评论

共计 6660 个字符,预计需要花费 17 分钟才能阅读完成。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

需要下载的软件:

1.Hadoop-2.6.4.tar.gz 下载网址:http://hadoop.apache.org/releases.html

2.scala-2.11.7.tgz 下载网址:http://www.scala-lang.org/

3.spark-1.6.0-bin-hadoop2.6.tgz 下载网址:http://spark.apache.org/

4.jdk-8u73-linux-x64.tar.gz 下载网址:http://www.Oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Root 用户的开启

为了简化 Linux 系统下的权限问题,我都是以 root 用户身份登陆和使用 Ubuntu 系统,而 Ubuntu 系统在默认情况下并没有开启 root 用户,我们需要开启 root 用户,我参考一下网址实现了 root 用户的开启:http://jingyan.baidu.com/article/27fa73268144f346f8271f83.html.

1. 打开 terminal 终端(ctrl+Alt+T):

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

2. 输入 sudo gedit /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf 回车了之后,可能会提示输入密码,输入后会弹出如图示的编辑框。在编辑框中输入 greeter-show-manual-login=true 保存关闭。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

3. 关闭之后,回到终端窗口,输入:sudo passwd root  回车;回车之后会要你输入两次密码,出现已成功更新密码字样即为成功。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

4. 然后关机重启之后,登陆的图形界面中,就可以输入 root 用户名和密码登陆了。

安装 JAVA JDK

1. 用 root 用户登陆后,cd 到 jdk 下载存放的地方,利用 tar -xf jdk-8u73-linux-x64.tar.gz 进行解压,解压后利用剪切命令 mv 将 jdk 放到 /usr/java 目录下。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

2. 利用 apt-get install vim 命令安装 vim 文本编辑器,cd 到 /etc 目录下,利用 vim profile 修改该文件加入 JAVA 的环境变量,打开 profile 文件后在最后添加如下文本:

 
1
2
3
export JAVA_HOME=/usr/java/jdk1.8.0_73
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

 添加完成后,在 terminal 中输入 source profile 使得环境变量生效。

更多 Spark 相关教程见以下内容

CentOS 7.0 下安装并配置 Spark  http://www.linuxidc.com/Linux/2015-08/122284.htm

Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm

CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm

Spark 简介及其在 Ubuntu 下的安装使用 http://www.linuxidc.com/Linux/2013-08/88606.htm

安装 Spark 集群(在 CentOS 上) http://www.linuxidc.com/Linux/2013-08/88599.htm

Hadoop vs Spark 性能对比 http://www.linuxidc.com/Linux/2013-08/88597.htm

Spark 安装与学习 http://www.linuxidc.com/Linux/2013-08/88596.htm

Spark 并行计算模型 http://www.linuxidc.com/Linux/2012-12/76490.htm

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

3. 测试 JAVA 是否配置成功,在 terminal 中输入 java -version 如果出现如下信息即成功。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)


 安装 Hadoop

hadoop 的安装主要参考官网上的伪分布式安装教程,参考网址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html

1. 安装 ssh 和 rsync,通过以下两个命令:

 
1
2
$ sudo apt-get install ssh
$ sudo apt-get install rsync

 2.cd 到 hadoop-2.6.4.tar.gz 的下载目录,利用 tar -xf 命令进行解压,将解压的文件夹利用 mv 命令剪切到目录 /opt 下,对于 spark,scala 都类似这样操作,不再累赘。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

3. 编辑文件 /etc/profile,添加 hadoop 的环境变量,记得 source profile

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

4. 添加完 hadoop 环境变量后,cd 到目录 /opt/hadoop-2.6.4/etc/hadoop/,修改 hadoop-env.sh 文件,定义如下变量:

1
export JAVA_HOME=/usr/java/latest

 Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

5. 伪分布式还需要修改 etc/hadoop/core-site.xml 文件为:

1
2
3
4
5
6
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

 修改 etc/hadoop/hdfs-site.xml 文件为:

1
2
3
4
5
6
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

 6. 让 ssh 访问不受限制,需要如下设置,首先输入 ssh localhost 检查是否能不需要密码就能完成 ssh localhost,如果不能需要如下生成秘钥:

1
2
3
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

 7. 以上步骤完成后,hadoop 的伪分布式就算完成了,然后就可以测试一下是否安装成功,可以查看网址 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html 中的 Execution 部分。

更多详情见请继续阅读下一页的精彩内容:http://www.linuxidc.com/Linux/2016-03/129068p2.htm

安装 Scala

安装 scala 比较容易,直接将解压后的 scala-2.11.7 文件夹放置在 /opt 目录下,然后修改 etc/profile 目录增加 Scala 所需环境变量就可以了。

1.vim etc/profile 增加环境变量

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

2. 利用命令 scala -version 检查是否配置成功,如果出现如下信息就代表成功。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)


安装 Spark

1. 将下载好的 spark 用命令 tar -xf 进行解压后剪切 mv 到某目录下后,配置 spark 环境变量如下:

?
1
2
export SPARK_HOME=/opt/spark-1.6.0-bin-Hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH

 Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

2. 配置 spark,先修改 spark-env.sh 文件:

1
2
cp spark-env.sh.template spark-env.sh
vim spark-env.sh

 添加 Spark 的配置信息

1
2
3
4
5
6
export JAVA_HOME=/usr/java/jdk1.8.0_73
export SCALA_HOME=/opt/scala-2.11.7
export SPARK_MASTER_IP=bk25103378-B85M-DS3H-A #主机名
export SPARK_WORKER_CORES=2
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/opt/hadoop-2.6.4/etc/hadoop

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

 修改 slaves 文件:

1
2
cp slaves.template slaves
vim slaves

 添加节点:

1
127.0.1.1 bk25103378-B85M-DS3H-A

 Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

3. 最后来启动 spark 检查是否配置成功即可。‘

Spark 的详细介绍:请点这里
Spark 的下载地址:请点这里

本文永久更新链接地址:http://www.linuxidc.com/Linux/2016-03/129068.htm

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

需要下载的软件:

1.Hadoop-2.6.4.tar.gz 下载网址:http://hadoop.apache.org/releases.html

2.scala-2.11.7.tgz 下载网址:http://www.scala-lang.org/

3.spark-1.6.0-bin-hadoop2.6.tgz 下载网址:http://spark.apache.org/

4.jdk-8u73-linux-x64.tar.gz 下载网址:http://www.Oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Root 用户的开启

为了简化 Linux 系统下的权限问题,我都是以 root 用户身份登陆和使用 Ubuntu 系统,而 Ubuntu 系统在默认情况下并没有开启 root 用户,我们需要开启 root 用户,我参考一下网址实现了 root 用户的开启:http://jingyan.baidu.com/article/27fa73268144f346f8271f83.html.

1. 打开 terminal 终端(ctrl+Alt+T):

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

2. 输入 sudo gedit /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf 回车了之后,可能会提示输入密码,输入后会弹出如图示的编辑框。在编辑框中输入 greeter-show-manual-login=true 保存关闭。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

3. 关闭之后,回到终端窗口,输入:sudo passwd root  回车;回车之后会要你输入两次密码,出现已成功更新密码字样即为成功。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

4. 然后关机重启之后,登陆的图形界面中,就可以输入 root 用户名和密码登陆了。

安装 JAVA JDK

1. 用 root 用户登陆后,cd 到 jdk 下载存放的地方,利用 tar -xf jdk-8u73-linux-x64.tar.gz 进行解压,解压后利用剪切命令 mv 将 jdk 放到 /usr/java 目录下。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

2. 利用 apt-get install vim 命令安装 vim 文本编辑器,cd 到 /etc 目录下,利用 vim profile 修改该文件加入 JAVA 的环境变量,打开 profile 文件后在最后添加如下文本:

 
1
2
3
export JAVA_HOME=/usr/java/jdk1.8.0_73
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

 添加完成后,在 terminal 中输入 source profile 使得环境变量生效。

更多 Spark 相关教程见以下内容

CentOS 7.0 下安装并配置 Spark  http://www.linuxidc.com/Linux/2015-08/122284.htm

Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm

CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm

Spark 简介及其在 Ubuntu 下的安装使用 http://www.linuxidc.com/Linux/2013-08/88606.htm

安装 Spark 集群(在 CentOS 上) http://www.linuxidc.com/Linux/2013-08/88599.htm

Hadoop vs Spark 性能对比 http://www.linuxidc.com/Linux/2013-08/88597.htm

Spark 安装与学习 http://www.linuxidc.com/Linux/2013-08/88596.htm

Spark 并行计算模型 http://www.linuxidc.com/Linux/2012-12/76490.htm

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

3. 测试 JAVA 是否配置成功,在 terminal 中输入 java -version 如果出现如下信息即成功。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)


 安装 Hadoop

hadoop 的安装主要参考官网上的伪分布式安装教程,参考网址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html

1. 安装 ssh 和 rsync,通过以下两个命令:

 
1
2
$ sudo apt-get install ssh
$ sudo apt-get install rsync

 2.cd 到 hadoop-2.6.4.tar.gz 的下载目录,利用 tar -xf 命令进行解压,将解压的文件夹利用 mv 命令剪切到目录 /opt 下,对于 spark,scala 都类似这样操作,不再累赘。

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

3. 编辑文件 /etc/profile,添加 hadoop 的环境变量,记得 source profile

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

4. 添加完 hadoop 环境变量后,cd 到目录 /opt/hadoop-2.6.4/etc/hadoop/,修改 hadoop-env.sh 文件,定义如下变量:

1
export JAVA_HOME=/usr/java/latest

 Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)

5. 伪分布式还需要修改 etc/hadoop/core-site.xml 文件为:

1
2
3
4
5
6
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

 修改 etc/hadoop/hdfs-site.xml 文件为:

1
2
3
4
5
6
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

 6. 让 ssh 访问不受限制,需要如下设置,首先输入 ssh localhost 检查是否能不需要密码就能完成 ssh localhost,如果不能需要如下生成秘钥:

1
2
3
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

 7. 以上步骤完成后,hadoop 的伪分布式就算完成了,然后就可以测试一下是否安装成功,可以查看网址 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html 中的 Execution 部分。

更多详情见请继续阅读下一页的精彩内容:http://www.linuxidc.com/Linux/2016-03/129068p2.htm

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计6660字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中