windows10环境安装spark-3.0.3-bin-hadoop2.7
闲聊
1539 人阅读
|
0 人回复
|
|
<
windows10情况装置spark-3.0.3-bin-hadoop2.7战碰到的成绩
媒介
星光没有问赶路人,时光没有背故意人。(那里援用一个蜜斯姐的话)
方才打仗spark,装置情况便拆了两天,今朝碰到的成绩,上面逐个会有阐明,期望能给到各人协助,其中会鉴戒其他年夜佬专客,有的能够遗忘标识表记标帜援用,如看到,能够联系自己,停止实时变动。
1、spark及其相关的硬件
1.JDK装置(没有会的网上有许多)自己装置的是Java 1.8.0_291
2.下载Hadoop_2.7.1
民网链接:http://hadoop.apache.org/releases.html
3.下载下载hadooponwindows-master.zip【能撑持正在windows运转hadoop的东西】
(后背会有那些硬件的百度链接)
4.下载对应的scala(那里用的是Scala 2.12.10)
民网链接:https://www.scala-lang.org/download/scala2.html
5.来民网下载spark-3.0.3-bin-hadoop2.7,那里留意必然要留意spark、hadoop、scala的版本
民网链接:http://spark.apache.org/downloads.html
上面是自己下载的硬件,有需求的能够本人提与,版本曾经标注,最好来民网下载,次要是为了本人处理成绩。
链接:https://pan.百度.com/s/1nWI3wxe_cTi8usDW_cxqBA
提与码:c6xs
2、详细步调
1.装置hadoop2.7.1
https://blog.csdn.net/qq_38025219/article/details/87365281
(我也是参考CSDN上年夜佬的文章)
下载hadoop2.7.1tar.gz,并解压到您念要的地位,我放正在了D盘内里
上面开端设置情况变量:
1.windows10情况变量设置:
2.后背接着设置path,将hadooop的bin目次参加
3.修正需求设置的文件(hadoop)
编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”下的core-site.xml文件,将以下文本粘揭出来,并保存;
- <configuration>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/D:/dev/hadoop-2.7.1/workplace/tmp</value>
- </property>
- <property>
- <name>dfs.name.dir</name>
- <value>/D:/dev/hadoop-2.7.1/workplace/name</value>
- </property>
- <property>
- <name>fs.default.name</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
复造代码 编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”目次下的mapred-site.xml(出有便将mapred-site.xml.template重定名为mapred-site.xml)文件,粘揭一下内乱容并保存;
- <configuration>
- <!-- 那个参数设置为1,由于是单机版hadoop -->
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <property>
- <name>dfs.data.dir</name>
- <value>/D:/dev/hadoop-2.7.1/workplace/data</value>
- </property>
- </configuration>
复造代码 编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”目次下的yarn-site.xml文件,粘揭以下内乱容并保存;
- <configuration>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- </property>
- <property>
- <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
- <value>org.apache.hadoop.mapred.ShuffleHandler</value>
- </property>
- </configuration>
复造代码 编纂“D:\硬件\Hadoop_2.7.1\hadoop-2.7.1\etc\hadoop”目次下的hadoop-env.cmd文件,将JAVA_HOME用 @rem正文失落,编纂为JAVA_HOME的途径,然后保存;
- @rem set JAVA_HOME=%JAVA_HOME%
- set JAVA_HOME=set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_291
复造代码 4.交换文件(hadoop)
下载到的hadooponwindows-master.zip,解压,将bin目次(包含以下.dll战.exe文件)文件交换本来hadoop目次下的bin目次;
5.正在cmd中停止运转
运转cmd窗心,施行“hdfs namenode -format”;
运转cmd窗心,切换到hadoop的sbin目次,施行“start-all.cmd”,它将会启动以下历程。
(启动当前会翻开新的四个窗心,而且皆是运转形态,详细图能够看上边我正在CSDN中援用年夜佬的专客)
到今朝来讲hadoop根本便拆建完了,如今需求测试一下
按照上里您的core-site.xml的设置,接下去您就能够经由过程:hdfs://localhost:9000去对hdfs停止操纵了
1.创立目次(那里要用办理员身份运转cmd窗心)
- C:\WINDOWS\system32>hadoop fs -mkdir hdfs://localhost:9000/user/
- C:\WINDOWS\system32>hadoop fs -mkdir hdfs://localhost:9000/user/wcinput
复造代码 2.上传数据到目次(那里的.txt文件需求本人正在对应文件夹创立,没有创立会报错,毛病道该文件夹中出有该文件,.txt文件内乱容本人随便写)
- C:\WINDOWS\system32>hadoop fs -put D:\file1.txt hdfs://localhost:9000/user/wcinput
- C:\WINDOWS\system32>hadoop fs -put D:\file2.txt hdfs://localhost:9000/user/wcinput
复造代码 检察您所导进的文件:
hadoop fs -ls hdfs://localhost:9000/user/wcinput
(详细图能够看上边我正在CSDN中援用年夜佬的专客)
如许hadoop的拆建便曾经完成了
2.装置scala(那里用的是Scala 2.12.10)
https://www.runoob.com/scala/scala-install.html
(民网的教程曾经很详细了windows10)
正在民网停止下载,停止情况变量的设置,设置好当前正在窗心输进cmd,然后输进scala,然后回车,情况变量便设置完了,您就能够看到对应的版本
这时候scala便曾经设置好了。
3.装置spark-3.0.3-bin-hadoop2.7
首先下载便是一个年夜成绩,能够公司的网有限,依旧正在家里的网停止下载的,也下了2个多小时,固然没有年夜,但速度太缓,后背我会把相关的硬件用百度网盘链接情势,需求的本人停止保存下载
民网下载网址:http://spark.apache.org/downloads.html
那是我正在民网下载的截图
(一样正在CSDN上也有相关年夜佬的设置办法)
年夜佬的专客
https://blog.csdn.net/weixin_51432117/article/details/115098331
1.设置情况
D:\硬件\spark-3.0.3-bin-hadoop2.7\spark-3.0.3-bin-hadoop2.7\bin
D:\硬件\spark-3.0.3-bin-hadoop2.7\spark-3.0.3-bin-hadoop2.7\python\lib
D:\硬件\spark-3.0.3-bin-hadoop2.7\spark-3.0.3-bin-hadoop2.7\python
最好把python的途径也设置上,后背能够会用到。
设置完了当前就能够正在cmd中输进:spark-shell
如许便成功了,假如有一些成绩,能够看我上里链接年夜佬碰到的成绩,几乎皆能够处理了,处理没有了的能够找度娘。
那个成绩我也来查过,没有受后背利用的影响,以是,后背假如碰到,正在停止弥补,不外网上有许多处理法子,关于我来讲,只需利用没有影响到我,我便无所谓。
4.测试python模块
重面去了,自己是做AI的,以是重面正在那里,那里是最年夜的坑,处理那些成绩网上材料是正在太少。
首先装置pyspark
许多人是pip install pyspark
那里自己没有倡议,假如您成功了便无所谓了
由于您下载的spark-3.0.3-bin-hadoop2.7内里有特地的模块是pyspark,以是您将本模块放到您对应的python中就能够
您将pyspark复造,然后复造到您python情况内里的lib–>sit-packages,复造到sit-packages文件夹便可,假如您用的是假造情况,您用的是miniconda依旧anaconda您找到对应的假造情况,途径皆是类似的,放到不异的文件夹内里。
如许从头启动您的pycharm就能够了。
上面便是测试碰到的成绩了,要明白装置出有装置好,便要用代码停止测试,开端展现:
新建一个python文件(那里留意您的python情况)
- from pyspark import SparkConf
- from pyspark.sql import SparkSession
- import traceback
- appname = "test" # 使命称号
- master = "local" # 单机形式设置
- '''
- local: 一切计较皆运转正在一个线程傍边,出有任何并止计较,凡是我们正在本机施行一些测试代码,大概练脚,便用这类形式。
- local[K]: 指定利用几个线程去运转计较,好比local[4]便是运转4个worker线程。凡是我们的cpu有几个core,便指定几个线程,最年夜化操纵cpu的计较才能
- local[*]: 这类形式间接帮您根据cpu最多cores去设置线程数了。
- '''
- spark_driver_host = "10.0.0.248"
- try:
- # conf = SparkConf().setAppName(appname).setMaster(master).set("spark.driver.host", spark_driver_host) # 散群
- conf = SparkConf().setAppName(appname).setMaster(master) # 当地
- spark = SparkSession.builder.config(conf=conf).getOrCreate()
- sc = spark.sparkContext
- words = sc.parallelize(
- ["scala",
- "java",
- "hadoop",
- "spark",
- "akka",
- "spark vs hadoop",
- "pyspark",
- "pyspark and spark"
- ])
- counts = words.count()
- print("Number of elements in RDD is %i" % counts)
- sc.stop()
- print('计较胜利!')
- except:
- sc.stop()
- traceback.print_exc() # 返回堕落疑息
- print('毗连堕落!')
复造代码
有正告,但没有受影响,假如念处理,便百度吧
如许便成功了。
假如碰到运转时假如报错sc出有被界说,您需求把上面代码复造到测试代码中
- from pyspark import SparkContext
- from pyspark import SparkConf
- conf = SparkConf().setAppName("test")
- sc = SparkContext(conf=conf)
复造代码 假如您有碰到的是Could not find valid SPARK_HOME while searching那个成绩
搜刮时找没有到有用的SPARK_HOME
能够参考一下链接:https://www.pianshen.com/article/82521714106/
假如您碰到的是ModuleNotFoundError: No module named 'py4j’是那个成绩,实在便是上里Could not find valid SPARK_HOME while searching那个成绩,只需根据那个办法机型处理就能够了。
处理办法,那里用的是pycharm
正在pycharm中翻开设置,Settings–>Project:xxx–>Project Structure,面击+号,增加pyspark zip包:
正在减号那边里把py4j战pyspark的紧缩包停止增加便可
更详细材料上边有链接,链接内里有视频,十分详细。
后背借需求设置一下体系变量:
根据本人的途径停止设置便可,出有便新建。
到那里我们我们便处理完了,假如您碰到新的成绩能够留行,同时感激列位年夜佬的文章,本文章没有做为商用,只是供应各人做为一个参考,假如触及侵权,能够联系自己,自己停止核真下架处理。
参考材料
https://blog.csdn.net/weixin_39750084/article/details/84453711
https://www.pianshen.com/article/82521714106/
https://blog.csdn.net/qq_38025219/article/details/87365281
https://www.runoob.com/scala/scala-install.html
免责声明:假如进犯了您的权益,请联络站少,我们会实时删除侵权内乱容,感谢协作! |
1、本网站属于个人的非赢利性网站,转载的文章遵循原作者的版权声明,如果原文没有版权声明,按照目前互联网开放的原则,我们将在不通知作者的情况下,转载文章;如果原文明确注明“禁止转载”,我们一定不会转载。如果我们转载的文章不符合作者的版权声明或者作者不想让我们转载您的文章的话,请您发送邮箱:Cdnjson@163.com提供相关证明,我们将积极配合您!
2、本网站转载文章仅为传播更多信息之目的,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证信息的正确性和完整性,且不对因信息的不正确或遗漏导致的任何损失或损害承担责任。
3、任何透过本网站网页而链接及得到的资讯、产品及服务,本网站概不负责,亦不负任何法律责任。
4、本网站所刊发、转载的文章,其版权均归原作者所有,如其他媒体、网站或个人从本网下载使用,请在转载有关文章时务必尊重该文章的著作权,保留本网注明的“稿件来源”,并自负版权等法律责任。
|
|
|
|
|
|
|
|