python?DataFrame數據分組統計groupby()函數的使用

更新時間：2022年03月10日 09:14:44 作者：侯小啾

在python的DataFrame中對數據進行分組統計主要使用groupby()函數，本文主要介紹了python?DataFrame數據分組統計groupby()函數的使用，具有一定的參考價值，感興趣的可以了解一下

groupby()函數

在python的DataFrame中對數據進行分組統計主要使用groupby()函數。

1. groupby基本用法

1.1 一級分類_分組求和

import pandas as pd
data = [['a', 'A', 109], ['b', 'B', 112], ['c', 'A', 125], ['d', 'C', 120],
        ['e', 'C', 126], ['f', 'B', 133], ['g', 'A', 124], ['h', 'B', 134],
        ['i', 'C', 117], ['j', 'C', 128]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
columns = ['name', 'class', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class').sum()       # 分組統計求和
print(df1)

在這里插入圖片描述

1.2 二級分類_分組求和

給groupby()傳入一個列表，列表中的元素為分類字段，從左到右分類級別增大。(一級分類、二級分類…)

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby(['class_1', 'class_2']).sum()       # 分組統計求和
print(df1)

在這里插入圖片描述

1.3 對DataFrameGroupBy對象列名索引（對指定列統計計算）

其中，df.groupby(‘class_1’)得到一個DataFrameGroupBy對象，對該對象可以使用列名進行索引，以對指定的列進行統計。
如：df.groupby(‘class_1’)[‘num’].sum()

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class_1')['num'].sum()
print(df1)

代碼運行結果同上。

2. 對分組數據進行迭代

2.1 對一級分類的DataFrameGroupBy對象進行遍歷

for name, group in DataFrameGroupBy_object

其中，name指分類的類名，group指該類的所有數據。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

# 獲取目標數據。
df1 = df[['name', 'class_1', 'num']]
for name, group in df1.groupby('class_1'):
        print(name)
        print("=============================")
        print(group)
        print("==================================================")

在這里插入圖片描述

2.2 對二級分類的DataFrameGroupBy對象進行遍歷

對二級分類的DataFrameGroupBy對象進行遍歷，
以for (key1, key2), group in df.groupby([‘class_1’, ‘class_2’]) 為例
不同于一級分類的是， (key1, key2)是一個由多級類別組成的元組，而group表示該多級分類類別下的數據。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")


for (key1, key2), group in df.groupby(['class_1', 'class_2']):
        print(key1, key2)
        print("=============================")
        print(group)
        print("==================================================")

程序運行結果如下：

在這里插入圖片描述

(部分)

3. agg()函數

使用groupby()函數和agg()函數實現分組聚合操作運算。

3.1一般寫法_對目標數據使用同一聚合函數

以分組求均值、求和為例

給agg()傳入一個列表

df1.groupby([‘class_1’, ‘class_2’]).agg([‘mean’, ‘sum’])

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'class_2', 'num1', 'num2']]
print(df1.groupby(['class_1', 'class_2']).agg(['mean', 'sum']))

在這里插入圖片描述

3.2 對不同列使用不同聚合函數

給agg()方法傳入一個字典

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'num1', 'num2']]
print(df1.groupby('class_1').agg({'num1': ['mean', 'sum'], 'num2': ['sum']}))

在這里插入圖片描述

3.3 自定義函數寫法

也可以自定義一個函數（以名為max1為例）傳入agg()中。

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

max1 = lambda x: x.value_counts(dropna=False).index[0]
max1.__name__ = "類別數量最多"
df1 = df.agg({'class_1': [max1],
        'num1': ['sum', 'mean'],
        'num2': ['sum', 'mean']})
print(df1)

在這里插入圖片描述

4. 通過字典和 Series 對象進行分組統計

groupy()不僅僅可以傳入單個列，或多個列組成的列表，
也可以傳入一個字典或者一個Series來實現分組。

4.1通過一個字典

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a產品產量', 'b產品產量', 'c產品產量', '搬運工數量', '推銷員數量', '經理數量', '平均工資']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

mapping = {
    'a產品產量': '產品產量', 'b產品產量': '產品產量',
    'c產品產量': '產品產量', '搬運工數量': '人員數量',
    '推銷員數量': '人員數量', '經理數量': '人員數量',
    '平均工資': '平均工資'
}

df1 = df.groupby(mapping, axis=1).sum()
print(df1)

程序運行結果：

在這里插入圖片描述

4.2通過一個Series

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a產品產量', 'b產品產量', 'c產品產量', '搬運工數量', '推銷員數量', '經理數量', '平均工資']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

data = {
    'a產品產量': '產品產量', 'b產品產量': '產品產量',
    'c產品產量': '產品產量', '搬運工數量': '人員數量',
    '推銷員數量': '人員數量', '經理數量': '人員數量',
    '平均工資': '平均工資'
}
s1 = pd.Series(data)
df1 = df.groupby(s1, axis=1).sum()
print(df1)

程序運行結果：

在這里插入圖片描述

參考資源： python數據分析從入門到精通明日科技編著清華大學出版社

到此這篇關于python DataFrame數據分組統計groupby()函數的使用的文章就介紹到這了,更多相關python DataFrame groupby() 內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python實現讀取excel表格詳解方法
python操作excel主要用到xlrd和xlwt兩個庫，xlrd讀取表格數據，支持xlsx和xls格式的excel表格；xlwt寫入excel表格數據
2022-07-07
python中內置函數range詳解
Python內置函數range()是一個用于生成一系列連續(xù)的整數的函數，它常用于循環(huán)結構中，用于指定循環(huán)的次數或迭代的范圍，這篇文章主要介紹了python之內置函數range,需要的朋友可以參考下
2023-07-07
Python實現冒泡排序算法的示例解析
冒泡排序（Bubble Sort）是一種簡單的排序算法。本文將詳細為大家講講Python實現冒泡排序算法的方法，感興趣的小伙伴可以跟隨小編一起學習一下
2022-06-06
Python方差特征過濾的實例分析
在本篇文章里小編給大家整理了一篇關于Python方差特征過濾的實例分析內容，有需要的朋友們可以跟著學習下。
2021-08-08
python3 實現mysql數據庫連接池的示例代碼
這篇文章主要介紹了python3 實現mysql數據庫連接池的示例代碼,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2021-04-04
python將文本中的空格替換為換行的方法
這篇文章主要介紹了python將文本中的空格替換為換行的方法,需要的朋友可以參考下
2018-03-03
?Python?匿名函數lambda?詳情
這篇文章主要介紹了?Python?匿名函數lambda，??lambda?????函數返回函數本身而不是將其賦值給一個變量名。所以它也被稱為匿名函數，下文更多相關內容需要的小伙伴可以參考一下
2022-03-03
基于Python開發(fā)一個選擇題訓練工具
選擇題作為一種高效的方式被廣泛應用于各類培訓與考試中,為了幫助學生高效學習與自測,本篇文章將采用Python編寫一款基于?Python?開發(fā)的選擇題訓練工具,需要的可以參考下
2024-12-12
pytorch中Schedule與warmup_steps的用法說明
這篇文章主要介紹了pytorch中Schedule與warmup_steps的用法說明，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2021-05-05
如何對python的字典進行排序
在本篇文章里小編給大家整理了關于python的字典進行排序方法，需要的朋友們可以學習下。
2020-06-06

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python?DataFrame數據分組統計groupby()函數的使用

目錄

groupby()函數

1. groupby基本用法

1.1 一級分類_分組求和

1.2 二級分類_分組求和

1.3 對DataFrameGroupBy對象列名索引（對指定列統計計算）

2. 對分組數據進行迭代

2.1 對一級分類的DataFrameGroupBy對象進行遍歷

2.2 對二級分類的DataFrameGroupBy對象進行遍歷

3. agg()函數

3.1一般寫法_對目標數據使用同一聚合函數

3.2 對不同列使用不同聚合函數

3.3 自定義函數寫法

4. 通過字典和 Series 對象進行分組統計

4.1通過一個字典

4.2通過一個Series

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python?DataFrame數據分組統計groupby()函數的使用

目錄

groupby()函數

1. groupby基本用法

1.1 一級分類_分組求和

1.2 二級分類_分組求和

1.3 對DataFrameGroupBy對象列名索引（對指定列統計計算）

2. 對分組數據進行迭代

2.1 對一級分類的DataFrameGroupBy對象進行遍歷

2.2 對二級分類的DataFrameGroupBy對象進行遍歷

3. agg()函數

3.1一般寫法_對目標數據使用同一聚合函數

3.2 對不同列使用不同聚合函數

3.3 自定義函數寫法

4. 通過 字典 和 Series 對象進行分組統計

4.1通過一個字典

4.2通過一個Series

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

4. 通過字典和 Series 對象進行分組統計