win8+python2.7+Eclipse开发spark环境搭建-创新互联

最近在学习Spark的机器学习,由于在机器学习方面Python语言表现不俗,故我选择使用Python语言作为Spark机器学习的开发语言,也为后续的深度学习打下基础,故下面是在windows8.1下搭建eclipse4.4.2+Python2.7.14+Spark2.1.0的开发环境,具体过程如下:

让客户满意是我们工作的目标,不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户,将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴,公司提供的服务项目有:国际域名空间、网站空间、营销软件、网站建设、永济网站维护、网站推广。

1.  在windows下安装Python

1.1. 下载Python

到下面这个地址下载对应操作系统的Python安装文件

https://www.python.org/downloads/release/python-2714/

win8+python2.7+Eclipse开发spark环境搭建

我是windows8.1 64位,故下载Windows x86-64 MSI installer版本的安装文件。

1.2. 安装Python

1)、双击win8+python2.7+Eclipse开发spark环境搭建

2)、在弹出的界面选择安装到当前用户即可,然后点击Next下一步;

win8+python2.7+Eclipse开发spark环境搭建

3)、选择安装的路径,我这里选择安装到D:\Python27\,然后点击Next下一步;

win8+python2.7+Eclipse开发spark环境搭建

4)、这一步直接点击Next下一步,然后等待安装完成;

win8+python2.7+Eclipse开发spark环境搭建

5)、出现如下界面,表示安装完成,直接点击Finsh完成。

win8+python2.7+Eclipse开发spark环境搭建

1.3. 环境变量配置

1.3.1.  第一种方式

在环境变量中添加Python目录:

在命令提示框中(cmd) : 输入

path=%path%;D:\Python27

按下"Enter"。

注意:D:\Python27 是Python的安装目录。

1.3.2.  第二种方式

也可以通过以下方式设置:

·        右键点击"计算机",然后点击"属性"

·        然后点击"高级系统设置"

·        选择"系统变量"窗口下面的"Path",双击即可!

·        然后在"Path"行,添加python安装路径即可(我的D:\Python27),所以在后面,添加该路径即可。 ps:记住,路径直接用分号";"隔开!

如下图:

win8+python2.7+Eclipse开发spark环境搭建

·        最后设置成功以后重启电脑,重启电脑完成之后在cmd命令行,输入命令"python",就可以看到如下图的相关信息显示,表示python安装成功。

win8+python2.7+Eclipse开发spark环境搭建

1.3.3.  Python 环境变量

下面几个重要的环境变量,它应用于Python:

变量名

描述

PYTHONPATH

PYTHONPATH是Python搜索路径,默认我们import的模块都会从PYTHONPATH里面寻找。

PYTHONSTARTUP

Python启动后,先寻找PYTHONSTARTUP环境变量,然后执行此文件中变量指定的执行代码。

PYTHONCASEOK

加入PYTHONCASEOK的环境变量, 就会使python导入模块的时候不区分大小写.

PYTHONHOME

另一种模块搜索路径。它通常内嵌于的PYTHONSTARTUP或PYTHONPATH目录中,使得两个模块库更容易切换。

2.  在windows下安装Eclipse

该步骤简单,省略,我的Eclipse版本为4.4.2。

注意:安装Eclipse之前需要安装JDK。

3.  Eclipse安装并配置PvDev插件

3.1. 安装PvDev插件

1)、启动Eclipse, 点击Help->InstallNew Software...  在弹出的对话框中,点Add按钮。 Name中填:pydev, Location中填https://dl.bintray.com/fabioz/pydev/5.2.0(因我的Eclipse为4.4.2故安装对应5.2.0版本的插件,如果是最新的Eclipse,直接使用http://pydev.org/updates),然后一步一步装下去。 如果装的过程中,报错了就重新装。

win8+python2.7+Eclipse开发spark环境搭建

2)、下面这步只选择PyDev节点下的所有,然后点击Next下一步;

win8+python2.7+Eclipse开发spark环境搭建

3)、这一步直接点击Next下一步;

win8+python2.7+Eclipse开发spark环境搭建

4)、这一步选择接受Iaccept……,然后点击Next下一步,然后等待插件安装完成并重启Eclipse。

win8+python2.7+Eclipse开发spark环境搭建

3.2. 配置PvDev插件

安装好pydev后, 需要配置Python解释器。

1)、在Eclipse菜单栏中,点击Windows->Preferences.

2)、在对话框中,点击PyDev->Interpreters– Python Interpreter. 点击New按钮,选择python.exe的路径,然后点击OK,弹出下一步的窗口;

win8+python2.7+Eclipse开发spark环境搭建

3)、在弹出一个包含很多复选框新的窗口,点OK之后出现下一步的窗口。

win8+python2.7+Eclipse开发spark环境搭建

        4)、点击该窗口的OK则完成插件的配置。

win8+python2.7+Eclipse开发spark环境搭建

4.  开发代码测试Python环境搭建情况

1)、启动Eclipse,创建一个新的项目,File->New->Projects...选择PyDev->PyDevProject 输入项目名称,如下图:

win8+python2.7+Eclipse开发spark环境搭建

2)、新建 PyDevPackage,输入包名Test1;

win8+python2.7+Eclipse开发spark环境搭建

3)、在__init__.py文件中编写代码,然后运行,正常在控制台输出,表示开发环境搭建完成。

win8+python2.7+Eclipse开发spark环境搭建

5.  使用Python开发Spark环境配置

5.1. 下载解压spark安装包

可以从http://spark.apache.org/downloads.html上下载对应的版本,我用的版本是spark-2.1.0-bin-hadoop2.7.tgz,下载完压缩文件后,解压。我解压到F:\BigData\Spark\spark-2.1.0-bin-hadoop2.7;

5.2. 配置spark环境变量

1)、新建SPARK_HOME变量,变量值为:F:\BigData\Spark\spark-2.1.0-bin-hadoop2.7,同时将%SPARK_HOME%\bin添加到系统Path变量,然后重启电脑;

win8+python2.7+Eclipse开发spark环境搭建

win8+python2.7+Eclipse开发spark环境搭建

5.3. Python配置

将spark目录下的pyspark文件夹(F:\BigData\Spark\spark-2.1.0-bin-hadoop2.7\python\pyspark)复制到python安装目录D:\Python27\Lib\site-packages里,然后在cmd命令行窗口执行pyspark命令出现如下图则表示安装成功:

win8+python2.7+Eclipse开发spark环境搭建

6.  使用Python开发spark常见问题

6.1. ImportError: No module named py4j.protocol

原因:运行python代码的时候报如题的错误信息,表示Python没有安装py4j模块

解决方案:在cmd命令行下运行cd D:\Python27\Scripts(我的python安装在D:\Python27\盘,这里是切换到pip的安装目录下,然后才能执行pip,没有装pip的需要预先安装),然后运行pipinstall py4j安装相关库,如下截图表示安装成功。

win8+python2.7+Eclipse开发spark环境搭建

6.2. ImportError: No module named numpy

原因:运行python代码的时候报如题的错误信息,表示Python没有安装numpy模块

解决方案:在cmd命令行下运行cd D:\Python27\Scripts(我的python安装在D:\Python27\盘,这里是切换到pip的安装目录下,然后才能执行pip,没有装pip的需要预先安装),然后运行pipinstall numpy安装相关库,如下截图表示安装成功。

win8+python2.7+Eclipse开发spark环境搭建

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


分享名称:win8+python2.7+Eclipse开发spark环境搭建-创新互联
标题网址:http://scyanting.com/article/ddgosi.html