Pandas的Apply函數(shù)具體使用
Pandas最好用的函數(shù)
Pandas是Python語言中非常好用的一種數(shù)據(jù)結(jié)構包,包含了許多有用的數(shù)據(jù)操作方法。而且很多算法相關的庫函數(shù)的輸入數(shù)據(jù)結(jié)構都要求是pandas數(shù)據(jù),或者有該數(shù)據(jù)的接口。
仔細看pandas的API說明文檔,就會發(fā)現(xiàn)有好多有用的函數(shù),比如非常常用的文件的讀寫函數(shù)就包括如下函數(shù):
| Format Type | Data Description | Reader | Writer |
|---|---|---|---|
| text | CSV | read_csv | to_csv |
| text | JSON | read_json | to_json |
| text | HTML | read_html | to_html |
| text | Local clipboard | read_clipboard | to_clipboard |
| binary | MS Excel | read_excel | to_excel |
| binary | HDF5 Format | read_hdf | to_hdf |
| binary | Feather Format | read_feather | to_feather |
| binary | Parquet Format | read_parquet | to_parquet |
| binary | Msgpack | read_msgpack | to_msgpack |
| binary | Stata | read_stata | to_stata |
| binary | SAS | read_sas | |
| binary | Python Pickle Format | read_pickle | to_pickle |
| SQL | SQL | read_sql | to_sql |
| SQL | Google Big Query | read_gbq | to_gbq |
讀取數(shù)據(jù)后,對于數(shù)據(jù)處理來說,有好多有用的相關操作的函數(shù),但是我認為其中最好用的函數(shù)是下面這個函數(shù):
apply函數(shù)
apply函數(shù)是`pandas`里面所有函數(shù)中自由度最高的函數(shù)。該函數(shù)如下:
DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)
該函數(shù)最有用的是第一個參數(shù),這個參數(shù)是函數(shù),相當于C/C++的函數(shù)指針。
這個函數(shù)需要自己實現(xiàn),函數(shù)的傳入?yún)?shù)根據(jù)axis來定,比如axis = 1,就會把一行數(shù)據(jù)作為Series的數(shù)據(jù)結(jié)構傳入給自己實現(xiàn)的函數(shù)中,我們在函數(shù)中實現(xiàn)對Series不同屬性之間的計算,返回一個結(jié)果,則apply函數(shù)會自動遍歷每一行DataFrame的數(shù)據(jù),最后將所有結(jié)果組合成一個Series數(shù)據(jù)結(jié)構并返回。
比如讀取一個表格:

假如我們想要得到表格中的PublishedTime和ReceivedTime屬性之間的時間差數(shù)據(jù),就可以使用下面的函數(shù)來實現(xiàn):
import pandas as pd import datetime #用來計算日期差的包 def dataInterval(data1,data2): d1 = datetime.datetime.strptime(data1, '%Y-%m-%d') d2 = datetime.datetime.strptime(data2, '%Y-%m-%d') delta = d1 - d2 return delta.days def getInterval(arrLike): #用來計算日期間隔天數(shù)的調(diào)用的函數(shù) PublishedTime = arrLike['PublishedTime'] ReceivedTime = arrLike['ReceivedTime'] # print(PublishedTime.strip(),ReceivedTime.strip()) days = dataInterval(PublishedTime.strip(),ReceivedTime.strip()) #注意去掉兩端空白 return days if __name__ == '__main__': fileName = "NS_new.xls"; df = pd.read_excel(fileName) df['TimeInterval'] = df.apply(getInterval , axis = 1)
有時候,我們想給自己實現(xiàn)的函數(shù)傳遞參數(shù),就可以用的apply函數(shù)的*args和**kwds參數(shù),比如同樣的時間差函數(shù),我希望自己傳遞時間差的標簽,這樣沒次標簽更改就不用修改自己實現(xiàn)的函數(shù)了,實現(xiàn)代碼如下:
import pandas as pd
import datetime #用來計算日期差的包
def dataInterval(data1,data2):
d1 = datetime.datetime.strptime(data1, '%Y-%m-%d')
d2 = datetime.datetime.strptime(data2, '%Y-%m-%d')
delta = d1 - d2
return delta.days
def getInterval_new(arrLike,before,after): #用來計算日期間隔天數(shù)的調(diào)用的函數(shù)
before = arrLike[before]
after = arrLike[after]
# print(PublishedTime.strip(),ReceivedTime.strip())
days = dataInterval(after.strip(),before.strip()) #注意去掉兩端空白
return days
if __name__ == '__main__':
fileName = "NS_new.xls";
df = pd.read_excel(fileName)
df['TimeInterval'] = df.apply(getInterval_new ,
axis = 1, args = ('ReceivedTime','PublishedTime')) #調(diào)用方式一
#下面的調(diào)用方式等價于上面的調(diào)用方式
df['TimeInterval'] = df.apply(getInterval_new ,
axis = 1, **{'before':'ReceivedTime','after':'PublishedTime'}) #調(diào)用方式二
#下面的調(diào)用方式等價于上面的調(diào)用方式
df['TimeInterval'] = df.apply(getInterval_new ,
axis = 1, before='ReceivedTime',after='PublishedTime') #調(diào)用方式三
修改后的getInterval_new函數(shù)多了兩個參數(shù),這樣我們在使用apply函數(shù)的時候要自己傳遞參數(shù),代碼中顯示的三種傳遞方式都行。
最后,本篇的全部代碼在下面這個網(wǎng)頁可以下載:
https://github.com/Dongzhixiao/Python_Exercise/tree/master/pandas_apply
到此這篇關于Pandas的Apply函數(shù)具體使用的文章就介紹到這了,更多相關Pandas Apply函數(shù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Django REST framework 單元測試實例解析
這篇文章主要介紹了Django REST framework 單元測試實例解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-11-11
Python實現(xiàn)獲取前100組勾股數(shù)的方法示例
這篇文章主要介紹了Python實現(xiàn)獲取前100組勾股數(shù)的方法,涉及Python數(shù)值計算與判斷相關操作技巧,需要的朋友可以參考下2018-05-05

