Python搭建Spark分布式集群环境-创新互联

前言

成都创新互联公司-专业网站定制、快速模板网站建设、高性价比西乡网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式西乡网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖西乡地区。费用合理售后完善,十多年实体公司更值得信赖。

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。


本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。

安装Hadoop并搭建好Hadoop集群环境


Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。

安装Spark

这里采用3台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器(节点)作为Master节点,另外两台机器(节点)作为Slave节点(即作为Worker节点),主机名分别为Slave01和Slave02。


在Master节点机器上,访问Spark官方下载地址,按照如下图下载。


下载完成后,执行如下命令:

sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark

名称栏目:Python搭建Spark分布式集群环境-创新互联
URL地址:http://pwwzsj.com/article/cocgcj.html