PyCharm+PySpark遠(yuǎn)程調(diào)試的環(huán)境配置的方法
前言:前兩天準(zhǔn)備用 Python 在 Spark 上處理量幾十G的數(shù)據(jù),熟料在利用PyCharm進(jìn)行PySpark遠(yuǎn)程調(diào)試時(shí)掉入深坑,特寫此博文以幫助同樣深處坑中的bigdata&machine learning fans早日出坑。
Version :Spark 1.5.0、Python 2.7.14
1. 遠(yuǎn)程Spark集群環(huán)境
首先Spark集群要配置好且能正常啟動(dòng),版本號(hào)可以在Spark對(duì)應(yīng)版本的官方網(wǎng)站查到,注意:Spark 1.5.0作為一個(gè)比較古老的版本,不支持Python 3.6+;另外Spark集群的每個(gè)節(jié)點(diǎn)的Python版本必須保持一致。這里只講如何加入pyspark遠(yuǎn)程調(diào)試所需要修改的部分。在$SPARK_HOME/conf/spark-env.sh中添加一行:
export PYSPARK_PYTHON=/home/hadoop/anaconda2/bin/python2
這里的Python路徑是集群上Python版本的路徑,我這里是用的anaconda安裝的Python2,所以路路徑如上。正常啟動(dòng)Spark集群后,在命令行輸入pyspark后回車,能正確進(jìn)入到pyspark shell。
2. 本地PyCharm配置
首先將Spark集群的spark-1.5.0部署包拷貝到本地機(jī)器,并在/etc/hosts(Linux類機(jī)器)或C:\Windows\System32….\hosts(Windows機(jī)器)中加入Spark集群Master節(jié)點(diǎn)的IP與主機(jī)名的映射;本地正確安裝Spark集群同版本Python;
安裝py4j

添加spark-1.5.0/python目錄

新建一個(gè)Python文件Simple,編輯Edit Configurations添加SPARK_HOME變量

寫一個(gè)類似下面的簡(jiǎn)單測(cè)試程序
# -*- encoding: UTF-8 -*-
# @auther:Mars
# @datetime:2018-03-01
from pyspark import SparkContext
sc = SparkContext("spark://master:7077","Simple APP")
logData = sc.textFile("hdfs://master:9000/README.md").cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Lines with a: %i, lines with b: %i"%(numAs, numBs))
sc.stop()
運(yùn)行可以得到看到下圖,就OK了~

切記,1)本地與Spark集群的版本要一致;2)程序中不要用IP地址(不信可以試試,如果你用IP地址不報(bào)錯(cuò),請(qǐng)告知我~謝謝)
以上這篇PyCharm+PySpark遠(yuǎn)程調(diào)試的環(huán)境配置的方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- pycharm利用pyspark遠(yuǎn)程連接spark集群的實(shí)現(xiàn)
- Win10搭建Pyspark2.4.4+Pycharm開發(fā)環(huán)境的圖文教程(親測(cè))
- windows下pycharm搭建spark環(huán)境并成功運(yùn)行 附源碼
- PyCharm搭建Spark開發(fā)環(huán)境的實(shí)現(xiàn)步驟
- pycharm編寫spark程序,導(dǎo)入pyspark包的3中實(shí)現(xiàn)方法
- PyCharm搭建Spark開發(fā)環(huán)境實(shí)現(xiàn)第一個(gè)pyspark程序
- pycharm連接spark教程
相關(guān)文章
詳談套接字中SO_REUSEPORT和SO_REUSEADDR的區(qū)別
下面小編就為大家分享一篇詳談套接字中SO_REUSEPORT和SO_REUSEADDR的區(qū)別,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-04-04
python打包為linux可執(zhí)行文件的詳細(xì)圖文教程
這篇文章主要給大家介紹了關(guān)于python打包為linux可執(zhí)行文件的詳細(xì)圖文教程,本文介紹的方法可以輕松地將Python代碼變成獨(dú)立的可執(zhí)行文件,需要的朋友可以參考下2024-02-02
python數(shù)據(jù)結(jié)構(gòu)leetcode338比特位計(jì)數(shù)算法
這篇文章主要介紹了力扣刷題中python數(shù)據(jù)結(jié)構(gòu)leetcode338比特位計(jì)數(shù)算法解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06
Python機(jī)器學(xué)習(xí)入門(四)之Python選擇模型
這篇文章主要介紹了Python機(jī)器學(xué)習(xí)入門知識(shí),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-08-08
python快速建立超簡(jiǎn)單的web服務(wù)器的實(shí)現(xiàn)方法
某些條件測(cè)試,需要一個(gè)簡(jiǎn)單的web服務(wù)器測(cè)試一下,為此專門去配置個(gè)nginx 或者 apache服務(wù)器略顯麻煩,這里就為大家介紹一下使用python快速建立超簡(jiǎn)單的web服務(wù)器的方法,需要的朋友可以參考下2018-02-02
python工具——Mimesis的簡(jiǎn)單使用教程
這篇文章主要介紹了python工具——Mimesis的簡(jiǎn)單使用教程,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2021-01-01
python如何實(shí)現(xiàn)word批量轉(zhuǎn)HTML
這篇文章主要介紹了python如何實(shí)現(xiàn)word批量轉(zhuǎn)HTML,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下2020-09-09

