windows10环境安装spark-3.0.3-bin-hadoop2.7

时光荒凉了谁的梦

windows10情况装置spark-3.0.3-bin-hadoop2.7战碰到的成绩

媒介

星光没有问赶路人，时光没有背故意人。（那里援用一个蜜斯姐的话）
方才打仗spark，装置情况便拆了两天，今朝碰到的成绩，上面逐个会有阐明，期望能给到各人协助，其中会鉴戒其他年夜佬专客，有的能够遗忘标识表记标帜援用，如看到，能够联系自己，停止实时变动。
1、spark及其相关的硬件

1.JDK装置（没有会的网上有许多）自己装置的是Java 1.8.0_291
2.下载Hadoop_2.7.1
民网链接：http://hadoop.apache.org/releases.html
3.下载下载hadooponwindows-master.zip【能撑持正在windows运转hadoop的东西】
（后背会有那些硬件的百度链接）
4.下载对应的scala（那里用的是Scala 2.12.10）
民网链接：https://www.scala-lang.org/download/scala2.html
5.来民网下载spark-3.0.3-bin-hadoop2.7，那里留意必然要留意spark、hadoop、scala的版本
民网链接：http://spark.apache.org/downloads.html
上面是自己下载的硬件，有需求的能够本人提与，版本曾经标注，最好来民网下载，次要是为了本人处理成绩。
链接：https://pan.百度.com/s/1nWI3wxe_cTi8usDW_cxqBA
提与码：c6xs
2、详细步调

1.装置hadoop2.7.1

https://blog.csdn.net/qq_38025219/article/details/87365281
（我也是参考CSDN上年夜佬的文章）
下载hadoop2.7.1tar.gz，并解压到您念要的地位，我放正在了D盘内里

上面开端设置情况变量：
1.windows10情况变量设置：

2.后背接着设置path，将hadooop的bin目次参加

3.修正需求设置的文件（hadoop）
编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”下的core-site.xml文件，将以下文本粘揭出来，并保存；

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/D:/dev/hadoop-2.7.1/workplace/tmp</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/D:/dev/hadoop-2.7.1/workplace/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

复造代码

编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”目次下的mapred-site.xml(出有便将mapred-site.xml.template重定名为mapred-site.xml)文件，粘揭一下内乱容并保存；

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/D:/dev/hadoop-2.7.1/workplace/data</value>
</property>
</configuration>

复造代码

编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”目次下的yarn-site.xml文件，粘揭以下内乱容并保存；

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

复造代码

编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”目次下的hadoop-env.cmd文件，将JAVA_HOME用 @rem正文失落，编纂为JAVA_HOME的途径，然后保存；

@rem set JAVA_HOME=%JAVA_HOME%
set JAVA_HOME=set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_291

复造代码

4.交换文件（hadoop）
下载到的hadooponwindows-master.zip，解压，将bin目次(包含以下.dll战.exe文件)文件交换本来hadoop目次下的bin目次；
5.正在cmd中停止运转
运转cmd窗心，施行“hdfs namenode -format”；
运转cmd窗心，切换到hadoop的sbin目次，施行“start-all.cmd”，它将会启动以下历程。
（启动当前会翻开新的四个窗心，而且皆是运转形态，详细图能够看上边我正在CSDN中援用年夜佬的专客）
到今朝来讲hadoop根本便拆建完了，如今需求测试一下
按照上里您的core-site.xml的设置，接下去您就能够经由过程：hdfs://localhost:9000去对hdfs停止操纵了
1.创立目次（那里要用办理员身份运转cmd窗心）

C:\WINDOWS\system32>hadoop fs -mkdir hdfs://localhost:9000/user/
C:\WINDOWS\system32>hadoop fs -mkdir hdfs://localhost:9000/user/wcinput

复造代码

2.上传数据到目次（那里的.txt文件需求本人正在对应文件夹创立，没有创立会报错，毛病道该文件夹中出有该文件,.txt文件内乱容本人随便写）

C:\WINDOWS\system32>hadoop fs -put D:\file1.txt hdfs://localhost:9000/user/wcinput
C:\WINDOWS\system32>hadoop fs -put D:\file2.txt hdfs://localhost:9000/user/wcinput

复造代码

检察您所导进的文件：
hadoop fs -ls hdfs://localhost:9000/user/wcinput
（详细图能够看上边我正在CSDN中援用年夜佬的专客）
如许hadoop的拆建便曾经完成了
2.装置scala（那里用的是Scala 2.12.10）

https://www.runoob.com/scala/scala-install.html
（民网的教程曾经很详细了windows10）

正在民网停止下载，停止情况变量的设置，设置好当前正在窗心输进cmd，然后输进scala，然后回车，情况变量便设置完了，您就能够看到对应的版本

这时候scala便曾经设置好了。
3.装置spark-3.0.3-bin-hadoop2.7

首先下载便是一个年夜成绩，能够公司的网有限，依旧正在家里的网停止下载的，也下了2个多小时，固然没有年夜，但速度太缓，后背我会把相关的硬件用百度网盘链接情势，需求的本人停止保存下载
民网下载网址：http://spark.apache.org/downloads.html

那是我正在民网下载的截图
（一样正在CSDN上也有相关年夜佬的设置办法）
年夜佬的专客
https://blog.csdn.net/weixin_51432117/article/details/115098331
1.设置情况

D:\硬件\spark-3.0.3-bin-hadoop2.7\spark-3.0.3-bin-hadoop2.7\bin
D:\硬件\spark-3.0.3-bin-hadoop2.7\spark-3.0.3-bin-hadoop2.7\python\lib
D:\硬件\spark-3.0.3-bin-hadoop2.7\spark-3.0.3-bin-hadoop2.7\python
最好把python的途径也设置上，后背能够会用到。
设置完了当前就能够正在cmd中输进：spark-shell

如许便成功了，假如有一些成绩，能够看我上里链接年夜佬碰到的成绩，几乎皆能够处理了，处理没有了的能够找度娘。

那个成绩我也来查过，没有受后背利用的影响，以是，后背假如碰到，正在停止弥补，不外网上有许多处理法子，关于我来讲，只需利用没有影响到我，我便无所谓。
4.测试python模块

重面去了，自己是做AI的，以是重面正在那里，那里是最年夜的坑，处理那些成绩网上材料是正在太少。
首先装置pyspark
许多人是pip install pyspark
那里自己没有倡议，假如您成功了便无所谓了
由于您下载的spark-3.0.3-bin-hadoop2.7内里有特地的模块是pyspark，以是您将本模块放到您对应的python中就能够

您将pyspark复造，然后复造到您python情况内里的lib–>sit-packages，复造到sit-packages文件夹便可，假如您用的是假造情况，您用的是miniconda依旧anaconda您找到对应的假造情况，途径皆是类似的，放到不异的文件夹内里。

如许从头启动您的pycharm就能够了。
上面便是测试碰到的成绩了，要明白装置出有装置好，便要用代码停止测试，开端展现：
新建一个python文件（那里留意您的python情况）

from pyspark import SparkConf
from pyspark.sql import SparkSession
import traceback
appname = "test" # 使命称号
master = "local" # 单机形式设置
'''
local: 一切计较皆运转正在一个线程傍边，出有任何并止计较，凡是我们正在本机施行一些测试代码，大概练脚，便用这类形式。
local[K]: 指定利用几个线程去运转计较，好比local[4]便是运转4个worker线程。凡是我们的cpu有几个core，便指定几个线程，最年夜化操纵cpu的计较才能
local[*]: 这类形式间接帮您根据cpu最多cores去设置线程数了。
'''
spark_driver_host = "10.0.0.248"
try:
# conf = SparkConf().setAppName(appname).setMaster(master).set("spark.driver.host", spark_driver_host) # 散群
conf = SparkConf().setAppName(appname).setMaster(master) # 当地
spark = SparkSession.builder.config(conf=conf).getOrCreate()
sc = spark.sparkContext
words = sc.parallelize(
["scala",
"java",
"hadoop",
"spark",
"akka",
"spark vs hadoop",
"pyspark",
"pyspark and spark"
])
counts = words.count()
print("Number of elements in RDD is %i" % counts)
sc.stop()
print('计较胜利！')
except:
sc.stop()
traceback.print_exc() # 返回堕落疑息
print('毗连堕落！')

复造代码

有正告，但没有受影响，假如念处理，便百度吧
如许便成功了。
假如碰到运转时假如报错sc出有被界说，您需求把上面代码复造到测试代码中

from pyspark import SparkContext
from pyspark import SparkConf
conf = SparkConf().setAppName("test")
sc = SparkContext(conf=conf)

复造代码

假如您有碰到的是Could not find valid SPARK_HOME while searching那个成绩
搜刮时找没有到有用的SPARK_HOME
能够参考一下链接：https://www.pianshen.com/article/82521714106/
假如您碰到的是ModuleNotFoundError: No module named 'py4j’是那个成绩，实在便是上里Could not find valid SPARK_HOME while searching那个成绩，只需根据那个办法机型处理就能够了。
处理办法，那里用的是pycharm
正在pycharm中翻开设置，Settings–>Project:xxx–>Project Structure,面击+号，增加pyspark zip包：

正在减号那边里把py4j战pyspark的紧缩包停止增加便可
更详细材料上边有链接，链接内里有视频，十分详细。
后背借需求设置一下体系变量：

根据本人的途径停止设置便可，出有便新建。
到那里我们我们便处理完了，假如您碰到新的成绩能够留行，同时感激列位年夜佬的文章，本文章没有做为商用，只是供应各人做为一个参考，假如触及侵权，能够联系自己，自己停止核真下架处理。
参考材料

https://blog.csdn.net/weixin_39750084/article/details/84453711
https://www.pianshen.com/article/82521714106/
https://blog.csdn.net/qq_38025219/article/details/87365281
https://www.runoob.com/scala/scala-install.html

免责声明：假如进犯了您的权益，请联络站少，我们会实时删除侵权内乱容，感谢协作！

windows10环境安装spark-3.0.3-bin-hadoop2.7

浏览过的版块