pandas中apply和transform方法的性能比較及區(qū)別介紹
1. apply與transform
首先講一下apply() 與transform()的相同點(diǎn)與不同點(diǎn)
相同點(diǎn):
都能針對dataframe完成特征的計(jì)算,并且常常與groupby()方法一起使用。
不同點(diǎn):
apply()里面可以跟自定義的函數(shù),包括簡單的求和函數(shù)以及復(fù)雜的特征間的差值函數(shù)等(注:apply不能直接使用agg()方法 / transform()中的python內(nèi)置函數(shù),例如sum、max、min、'count‘等方法)
transform() 里面不能跟自定義的特征交互函數(shù),因?yàn)閠ransform是真針對每一元素(即每一列特征操作)進(jìn)行計(jì)算,也就是說在使用 transform() 方法時(shí),需要記得三點(diǎn):
1、它只能對每一列進(jìn)行計(jì)算,所以在groupby()之后,.transform()之前是要指定要操作的列,這點(diǎn)也與apply有很大的不同。
2、由于是只能對每一列計(jì)算,所以方法的通用性相比apply()就局限了很多,例如只能求列的最大/最小/均值/方差/分箱等操作
3、transform還有什么用呢?最簡單的情況是試圖將函數(shù)的結(jié)果分配回原始的dataframe。也就是說返回的shape是(len(df),1)。注:如果與groupby()方法聯(lián)合使用,需要對值進(jìn)行去重
2. 各方法耗時(shí)
分別計(jì)算在同樣簡單需求下各組合方法的計(jì)算時(shí)長
2.1 transform() 方法+自定義函數(shù)

2.2 transform() 方法+python內(nèi)置方法

2.3 apply() 方法+自定義函數(shù)

2.4 agg() 方法+自定義函數(shù)

2.5 agg() 方法+python內(nèi)置方法

2.6 結(jié)論
agg()+python內(nèi)置方法的計(jì)算速度最快,其次是transform()+python內(nèi)置方法。而 transform() 方法+自定義函數(shù) 的組合方法最慢,需要避免使用!
而下面兩圖中紅框內(nèi)容可觀察發(fā)現(xiàn):python自帶的stats統(tǒng)計(jì)模塊在pandas結(jié)構(gòu)中的計(jì)算也非常慢,也需要避免使用!


3. 實(shí)例分析
需求:計(jì)算每個(gè)用戶每天
某種行為消費(fèi)次數(shù)、消費(fèi)總額、消費(fèi)均額、消費(fèi)最大額、消費(fèi)最小額
在幾個(gè)終端支付、最常支付終端號、最常支付終端號的支付次數(shù)、最少支付終端號、最少支付終端號的支付次數(shù)
某種行為最常消費(fèi)發(fā)生時(shí)間段、最常消費(fèi)發(fā)生時(shí)間段的消費(fèi)次數(shù)、最少消費(fèi)發(fā)生時(shí)間段、最少消費(fèi)發(fā)生時(shí)間段的消費(fèi)次數(shù)
某種行為最早消費(fèi)時(shí)間、最晚消費(fèi)時(shí)間
原始數(shù)據(jù)信息:306626 x 9

具體選擇哪種方法處理,根據(jù)實(shí)際情況確定,在面對復(fù)雜計(jì)算時(shí),transform() 與apply()結(jié)合使用往往會有意想不到的效果!
需要注意的是,在與apply()一起使用時(shí),transform需要進(jìn)行去重操作,一般是通過指定一或多個(gè)列完成。
此外,匿名函數(shù)永遠(yuǎn)不是一個(gè)很好的辦法,在進(jìn)行簡單計(jì)算時(shí),無論是使用transfrom、agg還是apply,都要盡可能使用自帶方法?。。?/p>
4. 小技巧
在使用apply()方法處理大數(shù)據(jù)級時(shí),可以考慮使用joblib中的多線程/多進(jìn)程模塊構(gòu)造相應(yīng)函數(shù)執(zhí)行計(jì)算,以下分別是采用多進(jìn)程和單進(jìn)程的耗時(shí)時(shí)長。
可以看到,在260W的數(shù)據(jù)集上,多進(jìn)程比單進(jìn)程的計(jì)算速度可以提升約17%~61% 。

總結(jié)
以上所述是小編給大家介紹的pandas中apply和transform方法的性能比較,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時(shí)回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
相關(guān)文章
python如何給字典的鍵對應(yīng)的值為字典項(xiàng)的字典賦值
這篇文章主要介紹了python如何給字典的鍵對應(yīng)的值為字典項(xiàng)的字典賦值,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07
python+pygame簡單畫板實(shí)現(xiàn)代碼實(shí)例
這篇文章主要介紹了python+pygame簡單畫板實(shí)現(xiàn)代碼實(shí)例,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12
pytorch鎖死在dataloader(訓(xùn)練時(shí)卡死)
這篇文章主要介紹了pytorch鎖死在dataloader(訓(xùn)練時(shí)卡死),具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05
Python實(shí)現(xiàn)定時(shí)執(zhí)行任務(wù)的三種方式簡單示例
這篇文章主要介紹了Python實(shí)現(xiàn)定時(shí)執(zhí)行任務(wù)的三種方式,結(jié)合簡單實(shí)例形式分析了Python使用time,os,sched等模塊定時(shí)執(zhí)行任務(wù)的相關(guān)操作技巧,需要的朋友可以參考下2019-03-03
python3.6利用pyinstall打包py為exe的操作實(shí)例
今天小編就為大家分享一篇python3.6利用pyinstall打包py為exe的操作實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10
Python實(shí)現(xiàn)視頻自動(dòng)打碼的示例代碼
我們在觀看視頻的時(shí)候,有時(shí)候會出現(xiàn)一些奇怪的馬賽克,影響我們的觀影體驗(yàn),那么這些馬賽克是如何精確的加上去的呢?本文就來為大家詳細(xì)講講2022-04-04

