PySpark和RDD對象最新詳解

一.了解Spark、PySpark
Spark是什么
定義:Apache Spark是用于大規(guī)模數(shù)據(jù)(large-scala data)處理的統(tǒng)一(unified)分析引擎。

簡單來說,Spark是一款分布式的計(jì)算框架,用于調(diào)度成百上千的服務(wù)器集群,計(jì)算TB、PB乃至EB級別的海量數(shù)據(jù)
Python on Spark
Spark作為全球頂級的分布式計(jì)算框架,支持眾多的編程語言進(jìn)行開發(fā)。而Python語言,則是Spark重點(diǎn)支持的方向。
Pyspark
Spark對Python語言的支持,重點(diǎn)體現(xiàn)在,Python第三方庫: PySpark之上。
PySpark是由Spark官方開發(fā)的Python語言第三方庫。
Python開發(fā)者可以使用pip程序快速的安裝PySpark并像其它三方庫那樣直接使用。

小結(jié)
1.什么是Spark、什么是PySpark
- Spark是Apache基金會旗下的頂級開源項(xiàng)目,用于對海量數(shù)據(jù)進(jìn)行大規(guī)模分布式計(jì)算。
- PySpark是Spark的Python實(shí)現(xiàn),是Spark為Python開發(fā)者提供的編程入口,用于以Python代碼完成Spark任務(wù)的開發(fā)
- PySpark不僅可以作為Python第三方庫使用,也可以將程序提交的Spark集群環(huán)境中,調(diào)度大規(guī)模集群進(jìn)行執(zhí)行。
2.為什么要學(xué)習(xí)PySpark?
大數(shù)據(jù)開發(fā)是Python眾多就業(yè)方向中的明星賽道,薪資高崗位多,Spark ( PySpark)又是大數(shù)據(jù)開發(fā)中的核心技術(shù)
二.構(gòu)建PySpark執(zhí)行環(huán)境入口對象
想要使用PySpark庫完成數(shù)據(jù)處理,首先需要構(gòu)建一個(gè)執(zhí)行環(huán)境入口對象。PySpark的執(zhí)行環(huán)境入口對象是:類SparkContext的類對象

注意:

紅框里面的兩個(gè)都是一個(gè)意思,上面的方法叫做鏈?zhǔn)秸{(diào)用
#導(dǎo)包
from pyspark import SparkConf,SparkContext
#創(chuàng)建SparkConf類對象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")
#基于SparkConf類對象創(chuàng)建SparkContext對象
sc=SparkContext(conf=conf)
#打印Pyspark版本
print(sc.version)
#停止SparkContext對象的運(yùn)行(停止PySpark程序)
sc.stop()
注意:要想運(yùn)行成功需要下載JDK并配置好環(huán)境變量
PySpark的編程模型
SparkContext類對象,是PySpark編程中一切功能的入口。PySpark的編程,主要分為如下三大步驟:


- 通過SparkContext對象,完成數(shù)據(jù)輸入
- 輸入數(shù)據(jù)后得到RDD對象,對RDD對象進(jìn)行迭代計(jì)算
- 最終通過RDD對象的成員方法,完成數(shù)據(jù)輸出工作
小結(jié)
1.如何安裝PySpark庫
pip install pyspark
2.為什么要構(gòu)建SparkContext對象作為執(zhí)行入口
PySpark的功能都是從SparkContext對象作為開始
3.PySpark的編程模型是?
- 數(shù)據(jù)輸入:通過SparkContext完成數(shù)據(jù)讀取
- 數(shù)據(jù)計(jì)算:讀取到的數(shù)據(jù)轉(zhuǎn)換為RDD對象,調(diào)用RDD的成員方法完成計(jì)算
- 數(shù)據(jù)輸出:調(diào)用RDD的數(shù)據(jù)輸出相關(guān)成員方法,將結(jié)果輸出到list、元組、字典、文本文件、數(shù)據(jù)庫等
三.RDD對象

如圖可見,PySpark支持多種數(shù)據(jù)的輸入,在輸入完成后,都會得到一個(gè):RDD類的對象
RDD全稱為:彈性分布式數(shù)據(jù)集( Resilient Distributed Datasets)
PySpark針對數(shù)據(jù)的處理,都是以RDD對象作為載體,即:
- 數(shù)據(jù)存儲在RDD內(nèi)
- 各類數(shù)據(jù)的計(jì)算方法,也都是RDD的成員方法
- RDD的數(shù)據(jù)計(jì)算方法,返回值依舊是RDD對象
python數(shù)據(jù)容器轉(zhuǎn)RDD對象
PySpark支持通過Sparkcontext對象的parallelize成員方法,將:
- list
- tuple
- set
- dict
- str
轉(zhuǎn)為PySpark的RDD對象
代碼:

注意
- 字符串會被拆分出1個(gè)個(gè)的字符
- 存入RDD對象字典僅有key會被存入RDD對象
- 如果要查看RDD里面有什么內(nèi)容,需要用collect()方法
演示
#導(dǎo)包
from pyspark import SparkConf,SparkContext
#創(chuàng)建SparkConf類對象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark")
#基于SparkConf類對象創(chuàng)建SparkContext對象
sc=SparkContext(conf=conf)
#通過parallelize方法將python對象加載到Spark內(nèi),成為RDD對象
rdd1=sc.parallelize([1,2,3,4,5])
rdd2=sc.parallelize((1,2,3,4,5))
rdd3=sc.parallelize("abcdefg")
rdd4=sc.parallelize({1,2,3,4,5})
rdd5=sc.parallelize({"key1":"value1","key2":"value2"})
#如果要查看RDD里面有什么內(nèi)容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
#停止SparkContext對象的運(yùn)行(停止PySpark程序)
sc.stop()結(jié)果是

讀取文件轉(zhuǎn)RDD對象
PySpark也支持通過SparkContext入口對象,來讀取文件,來構(gòu)建出RDD對象。

演示
#導(dǎo)包
from pyspark import SparkConf,SparkContext
#創(chuàng)建SparkConf類對象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark")
#基于SparkConf類對象創(chuàng)建SparkContext對象
sc=SparkContext(conf=conf)
#用textFile方法,讀取文件數(shù)據(jù)加載到Spark中,成為RDD對象
rdd=sc.textFile("D:/game.txt")
print(rdd.collect())
#停止SparkContext對象的運(yùn)行(停止PySpark程序)
sc.stop()結(jié)果是

到此這篇關(guān)于PySpark和RDD對象詳解的文章就介紹到這了,更多相關(guān)PySpark和RDD對象內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python程序中用csv模塊來操作csv文件的基本使用教程
這篇文章主要介紹了Python程序中用csv模塊來操作csv文件的基本使用教程,csv文件中也是格式化的數(shù)據(jù),只不過csv本身沒有XML和JSON那么流行...需要的朋友可以參考下2016-03-03
把Anaconda中的環(huán)境導(dǎo)入到Pycharm里面的方法步驟
這篇文章主要介紹了把Anaconda中的環(huán)境導(dǎo)入到Pycharm里面的方法步驟,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-10-10
PyQt5+requests實(shí)現(xiàn)車票查詢工具
這篇文章主要為大家詳細(xì)介紹了PyQt5+requests實(shí)現(xiàn)車票查詢工具,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-01-01
python裝飾器相當(dāng)于函數(shù)的調(diào)用方式
今天小編就為大家分享一篇python裝飾器相當(dāng)于函數(shù)的調(diào)用方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12
python讀取npy文件數(shù)據(jù)實(shí)例
npy文件用于存儲重建ndarray所需的數(shù)據(jù)、圖形、dtype?和其他信息,下面這篇文章主要給大家介紹了關(guān)于python讀取npy文件數(shù)據(jù)的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-04-04

