Python搭建Spark分布式集群環(huán)境

更新時間：2019年07月05日 17:04:25 作者：E-iceblue

這篇文章主要介紹了Spark分布式集群環(huán)境搭建基于Python版，Apache Spark 是一個新興的大數(shù)據(jù)處理通用引擎，提供了分布式的內(nèi)存抽象。100 倍本文而是使用三臺電腦來搭建一個小型分布式集群環(huán)境安裝,需要的朋友可以參考下

前言

Apache Spark 是一個新興的大數(shù)據(jù)處理通用引擎，提供了分布式的內(nèi)存抽象。Spark 最大的特點就是快，可比 Hadoop MapReduce 的處理速度快 100 倍。本文沒有使用一臺電腦上構(gòu)建多個虛擬機的方法來模擬集群，而是使用三臺電腦來搭建一個小型分布式集群環(huán)境安裝。

本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同樣適用于搭建Spark1.6.2集群。

安裝Hadoop并搭建好Hadoop集群環(huán)境

Spark分布式集群的安裝環(huán)境，需要事先配置好Hadoop的分布式集群環(huán)境。

安裝Spark

這里采用3臺機器（節(jié)點）作為實例來演示如何搭建Spark集群，其中1臺機器（節(jié)點）作為Master節(jié)點，另外兩臺機器（節(jié)點）作為Slave節(jié)點（即作為Worker節(jié)點），主機名分別為Slave01和Slave02。

在Master節(jié)點機器上，訪問Spark官方下載地址，按照如下圖下載。

下載完成后，執(zhí)行如下命令：

sudo tar -zxf ~/下載/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark

配置環(huán)境變量

在Mster節(jié)點主機的終端中執(zhí)行如下命令：

vim ~/.bashrc

在.bashrc添加如下配置：

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

執(zhí)行如下命令使得配置立即生效：

source ~/.bashrc

Spark配置

在Master節(jié)點主機上進行如下操作：

配置slaves文件

將 slaves.template 拷貝到 slaves

cd /usr/local/spark/
cp ./conf/slaves.template ./conf/slaves

slaves文件設(shè)置Worker節(jié)點。編輯slaves內(nèi)容,把默認內(nèi)容localhost替換成如下內(nèi)容：

slave01
slave02

配置spark-env.sh文件

將 spark-env.sh.template 拷貝到 spark-env.sh

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

編輯spark-env.sh,添加如下內(nèi)容：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.104

SPARK_MASTER_IP 指定 Spark 集群 Master 節(jié)點的 IP 地址；

配置好后，將Master主機上的/usr/local/spark文件夾復(fù)制到各個節(jié)點上。在Master主機上執(zhí)行如下命令：

cd /usr/local/
tar -zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz slave01:/home/hadoop
scp ./spark.master.tar.gz slave02:/home/hadoop

在slave01,slave02節(jié)點上分別執(zhí)行下面同樣的操作：

sudo rm -rf /usr/local/spark/
sudo tar -zxf ~/spark.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/spark

啟動Spark集群

啟動Hadoop集群

啟動Spark集群前，要先啟動Hadoop集群。在Master節(jié)點主機上運行如下命令：

cd /usr/local/hadoop/
sbin/start-all.sh

啟動Spark集群

1.啟動Master節(jié)點

在Master節(jié)點主機上運行如下命令：

cd /usr/local/spark/
sbin/start-master.sh

在Master節(jié)點上運行jps命令，可以看到多了個Master進程：

15093 Jps
14343 SecondaryNameNode
14121 NameNode
14891 Master
14509 ResourceManager

2.啟動所有Slave節(jié)點

在Master節(jié)點主機上運行如下命令：

sbin/start-slaves.sh

分別在slave01、slave02節(jié)點上運行jps命令，可以看到多了個Worker進程

37553 DataNode
37684 NodeManager
37876 Worker
37924 Jps

3.在瀏覽器上查看Spark獨立集群管理器的集群信息

在master主機上打開瀏覽器，訪問http://master:8080,如下圖：

關(guān)閉Spark集群

1.關(guān)閉Master節(jié)點

sbin/stop-master.sh

2.關(guān)閉Worker節(jié)點

sbin/stop-slaves.sh

3.關(guān)閉Hadoop集群

cd /usr/local/hadoop/
sbin/stop-all.sh

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python搭建Spark分布式集群環(huán)境

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python搭建Spark分布式集群環(huán)境

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕