首页 > 在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境

在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境

(running Spark in local mode on single computer)



1.参见本博客前面的文章完成以下准备工作:

(1)安装JVM

(2)安装Scala

(3)安装Python或者IPython



2.官网下载Spark最新版并解压

登陆官网

http://spark.apache.org/downloads.html

选择包类型为"Pre-built for Hadoop 2.4 and later"并下载对应的tarball文件spark-1.3.0-bin-hadoop2.4.tgz



解压下载的文件spark-1.3.0-bin-hadoop2.4.tgz 到指定目录

cp -f spark-1.3.0-bin-hadoop2.4.tgz  ~/program

tar -xf spark-1.3.0-bin-hadoop2.4.tgz -C ~/program

cd spark-1.3.0-bin-hadoop2.4

ls



由上易见, Spark版本是1.3.0, Hadoop版本是2.4



3.利用Spark自带的Python shell

使用PySpark shell, 在Spark解压的源码路径下,运行

bin/pyspark

在提示符下,依次输入下面的命令

>>> lines = sc.textFile("README.md")

>>> lines.count()

>>> lines.first()



按Ctrl-D退出shell环境



4.修改打印日志的级别

经过上面的运行,发现shell环境中打印的日志过多, 为此我需要调整以下日志的级别.为此,我在

conf目录下面新建一个文件log4j.properties,它是log4j.properties.template的副本,将其中

下面的行

log4j.rootCategory=INFO, console

改为

log4j.rootCategory=WARN, console



然后重新打开shell,发现调试信息少了很多



5.使用IPython或者IPython Notebook

在命令行, 我们可以使用下面的命令来开启IPython

IPYTHON=1 ./bin/pyspark



使用下面的命令来开启IPython Notebook

IPYTHON_OPTS="notebook" ./bin/pyspark

这会在默认浏览器中打开如下页面

点击上面的"New Notebook"打开一个新的页面标签, 在其中输入如下命令行,并按播放按钮来执行结果



按Ctrl-D退出shell环境



6.使用Scala shell测试line count小程序

打开Scala版本的shell,运行

bin/spark-shell

scala> val lines = sc.textFile("README.md")

scala> lines.cout()

scala> lines.first()



按Ctrl-D退出shell环境



7.测试Spark性能

进入到Spark的conf目录下面, 根据当前配置环境, 复制并修改spark_env.sh文件

cp -f spark-env.sh.template spark-env.sh

vim spark-env.sh

添加如下内容





启动主服务器节点

sbin/start-master.sh

启动从服务器节点

sbin/start-slaves.sh spark://127.0.0.1:7077

关闭分别使用

sbin/stop-master.sh

sbin/stop-slaves.sh



浏览master UI

http://127.0.0.1:8080/



http://127.0.0.1:8081/



运行样例

run-example org.apache.spark.examples.SparkPi local

run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077

run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077



未解决的问题:

在运行样例时,发现配置spark ip为127.0.0.1有错误, 最好是运行在公网上的ip



参考文献

[1].http://www.linuxidc.com/Linux/2014-06/103210.htm

[2].http://www.it165.net/os/html/201405/8430.html

[3].Learning Spark Lightning Fast Big Data Analysis.pdf



更多相关: