Spark — Windows环境安装

安装Java

Windows上安装Apache Spark需要Java 8或更高版本,你可以从 Oracle 下载相应的Java版本然后安装。 使用OpenJDK可以从这里下载。

下载安装后,请参考Java安装教程配置好环境变量。

Note

本文使用的环境是Java8,同样的步骤也适用于Java11和13版本。

安装Spark

访问Spark下载页下载Apache Spark压缩包。 可以使用下拉框选择不同版本的Spark和Hadoop,然后点击第三行的下载链接即可下载。

Spark Download Page

ApacheSpark下载页

下载完成后使用解压工具(推荐7zip)将其解压,然后将解压后的目录 spark-3.0.3-bin-hadoop2.7 复制到 C:\opt\spark-3.0.3-bin-hadoop2.7

配置环境变量

Windows上安装Apache Spark需要配置 Java_HOME(安装Java时配置)、 Spark_HOMEHADOOP_HOMEPATH 环境变量。 根据安装目录需要做如下配置:

SPARK_HOME = C:\opt\spark-3.0.3-bin-hadoop2.7
HADOOP_HOME = C:\opt\spark-3.0.3-bin-hadoop2.7
PATH=%PATH%;%SPARK_HOME%

新建环境变量 SPARK_HOME:

Environment Variables

新建环境变量 HADOOP_HOME:

Environment Variables

%SPARK_HOME% 添加至环境变量 PATH 中:

Environment Variables

安装 winutils.exe

要在Windows上运行Apache Spark,还需要下载 winutils.exe,可以到这里自行下载对应Hadoop版本的winutils包,然后将其内容复制到 %SPARK_HOME%\bin 目录下。

Note

Hadoop的版本可以在 %SPARK_HOME% 目录中的 RELEASE 文件中看到。

Spark shell

Spark shell是Spark发行版中附带的CLI工具。在配置好环境变量后, 在命令行中运行命令 spark-shell 即可打开Spark shell交互式命令行工具。

Spark Shell Command Line

Spark Shell Command Line

默认情况下,spark-shell同时还会拉起一个Web页面,在本例中为http://host.docker.internal:4040 , 可以在浏览器中直接打开。实际地址请详见spark-shell的输出提示。

在spark-shell的命令行中可以运行一些spark语句,如创建RDD、获取spark版本等。

scala> spark.version
res0: String = 3.0.3

scala> val rdd = sc.parallelize(Array(1,2,3,4))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24