Pandas分組聚合之使用自定義函數(shù)方法transform()、apply()

更新時(shí)間：2023年01月29日 09:36:13 作者：胡桃の壺

Pandas具有很多強(qiáng)大的功能,transform就是其中之一,利用它可以高效地匯總數(shù)據(jù)且不改變數(shù)據(jù)行數(shù),下面這篇文章主要給大家介紹了關(guān)于Pandas分組聚合之使用自定義函數(shù)方法transform()、apply()的相關(guān)資料,需要的朋友可以參考下

創(chuàng)建一個(gè)dataframe結(jié)構(gòu)

import pandas as pd

df = pd.DataFrame(
    data={
        'name': ['z_s', 'l_s', 'w_w', 'z_l', 'y_s', 'j_j', 'l_b', 'z_f', 'hs_q', 'lbl_k', 'qy_n', 'mg_n'],
        'score': [100, 97, 98, 89, 67, 59, 29, 87, 78, 89, 88, 80],
        'group': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2],
        'cls': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'A', 'B', 'B', 'B'],
        'height': [178.0, 180.0, 176.0, 182.0, 189.0, 190.0, 172.5, 175.0, 165.0, 160.0, 158.5, 159.0]
    },
    index=['stu_' + str(i) for i in np.arange(1, 13, 1)]
)
print('df:\n', df)

def func_add_one(x):
    return x + 1

transform方法

# 調(diào)用自定義函數(shù)
ret = df.loc[:, 'score'].transform(func_add_one)
print('ret1:\n',ret)
# 調(diào)用numpy指標(biāo) 求均值
ret = df.groupby(by=['cls'])['score'].transform(np.mean)
print('ret2:\n', ret)
# 求 多列的均值
ret = df.groupby(by=['cls'])[['score','height']].transform(np.mean)
print('ret3:\n', ret)

由結(jié)果可以發(fā)現(xiàn)，transform調(diào)用統(tǒng)計(jì)指標(biāo)會(huì)將統(tǒng)計(jì)結(jié)果交給第一項(xiàng)，這樣可以保證統(tǒng)計(jì)結(jié)果的行數(shù)與原數(shù)組相同，使得之后方便將其拼接到原數(shù)組中。

如果想將結(jié)果進(jìn)行聚合，可以調(diào)用apply方法：

apply方法

# 調(diào)用自定義函數(shù)
ret = df.loc[:, 'score'].apply(func_add_one)
print('ret1:\n',ret)

# 調(diào)用numpy指標(biāo)
ret = df.groupby(by=['cls'])[['score','height']].apply(np.mean)
print('ret2:\n', ret)

補(bǔ)充

transporm 方法是將DataFrame或Series中的值同時(shí)放入指定的函數(shù)中執(zhí)行，再將結(jié)果返回。

獲取 name的第0個(gè)元素

def func_get_firstnameword(x):
    return x[0]

ret = df['name'].transform(func_get_firstnameword)
print('ret:\n', ret)

自定義方法擁有很大的可操作性，通過(guò)自定義方法可以對(duì)數(shù)據(jù)進(jìn)行一系列操作，最終得到想要的結(jié)果。

str

除此之外，還可以使用str方法，這是一種類似于 dt 的方法（dt的使用）

ret = df['name'].str.split('_', expand=True)[0]
print('ret:\n', ret)

str 的作用是將整個(gè) Series當(dāng)作str對(duì)象，對(duì)Series中的所有元素同時(shí)執(zhí)行.split('_', expand=True)[0]方法，其中expand=True的作用是指定split()方法是對(duì)整個(gè)Series進(jìn)行操作的，而不是只對(duì)第一個(gè)元素進(jìn)行操作：

ret = df['name'].str.split('_')[0]
print('ret:\n', ret)

總結(jié)

到此這篇關(guān)于Pandas分組聚合之使用自定義函數(shù)方法transform()、apply()的文章就介紹到這了,更多相關(guān)Pandas使用自定義函數(shù)方法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: