Python搭建Spark分布式集群环境-创新互联

前言

成都创新互联公司-专业网站定制、快速模板网站建设、高性价比西乡网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式西乡网站制作公司更省心,省钱,快速模板网站建设找我们，业务覆盖西乡地区。费用合理售后完善，十多年实体公司更值得信赖。

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。

本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2集群。

安装Hadoop并搭建好Hadoop集群环境

Spark分布式集群的安装环境，需要事先配置好Hadoop的分布式集群环境。

安装Spark

这里采用3台机器（节点）作为实例来演示如何搭建Spark集群，其中1台机器（节点）作为Master节点，另外两台机器（节点）作为Slave节点（即作为Worker节点），主机名分别为Slave01和Slave02。

在Master节点机器上，访问Spark官方下载地址，按照如下图下载。

下载完成后，执行如下命令：

sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark

网站名称：Python搭建Spark分布式集群环境-创新互联
转载来于：http://scyanting.com/article/cocgcj.html

Python搭建Spark分布式集群环境-创新互联

其他资讯