pandas去重復(fù)行并分類匯總的實現(xiàn)方法
今天主要記錄一下pandas去重復(fù)行以及如何分類匯總。以下面的數(shù)據(jù)幀作為一個例子:
import pandas as pd
data=pd.DataFrame({'產(chǎn)品':['A','A','A','A'],'數(shù)量':[50,50,30,30]})
pandas判斷dataframe是否含有重復(fù)行數(shù)據(jù)用:df.duplicated()

第一次出現(xiàn)的數(shù)據(jù)為False.重復(fù)的數(shù)據(jù)行就被記錄為True。
去掉重復(fù)行數(shù)據(jù)使用data.drop_duplicates().

可以看到索引亂了,我們使用data.reset_index(),里面的參數(shù)drop=True,表明要舍掉原來的索引,不然的話原來的索引會保留下來。

分類匯總主要使用groupby(表明匯總的條件列)以及agg(要匯總的字段/列以及匯總的方式:求和還是最大最小值或者計數(shù))。完整代碼如下圖
# -*- coding: utf-8 -*-
"""
Created on Fri Jul 20 09:08:10 2018
@author: FanXiaoLei
"""
import pandas as pd
data=pd.DataFrame({'產(chǎn)品':['A','A','A','A'],'數(shù)量':[50,50,30,30]})
if data.duplicated:
dataA=data.drop_duplicates().reset_index(drop=True)
print(dataA)
dataB=dataA.groupby(by='產(chǎn)品').agg({'數(shù)量':sum})
print('數(shù)據(jù)匯總結(jié)果:')
print(dataB)
結(jié)果展示如下圖:

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python常用驗證碼標(biāo)注和識別(需求分析和實現(xiàn)思路)
通過本文的介紹,我們了解了Python在常用驗證碼標(biāo)注和識別方面的應(yīng)用,在實際項目中,我們可以根據(jù)具體需求選擇合適的模型和工具,實現(xiàn)高效、準(zhǔn)確的驗證碼標(biāo)注和識別,感興趣的朋友跟隨小編一起看看吧2024-03-03
使用Python檢索數(shù)據(jù)庫sql格式的文件
這篇文章主要介紹了如何使用Python生成一個tkinter框架的UI界面,可以實現(xiàn)檢索數(shù)據(jù)庫sql格式的文件,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2025-03-03
python中while和for的區(qū)別總結(jié)
在本篇內(nèi)容里小編給大家分享的是關(guān)于python中while和for的區(qū)別以及相關(guān)知識點,需要的朋友們可以學(xué)習(xí)下。2019-06-06
python+logging+yaml實現(xiàn)日志分割
這篇文章主要為大家詳細(xì)介紹了python+logging+yaml實現(xiàn)日志分割,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-07-07

