注:该教程转自厦门大学大数据课程学习总结
Spark的安装过程较为简单,在已安装好 Hadoop 的前提下,经过简单配置即可使用。
安装Spark
- sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/
- cd /usr/local
- sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark
- sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名
安装后,还需要修改Spark的配置文件spark-env.sh
- cd /usr/local/spark
- cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
通过运行Spark自带的示例,验证Spark是否安装成功。
- cd /usr/local/spark
- bin/run-example SparkPi
执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中):
- bin/run-example SparkPi 2>&1 | grep "Pi is"
过滤后的运行结果如下图示,可以得到π 的 5 位小数近似值: