pandas中DataFrame檢測(cè)重復(fù)值的實(shí)現(xiàn)
本文詳解如何使用pandas查看dataframe的重復(fù)數(shù)據(jù),判斷是否重復(fù),以及如何去重
DataFrame.duplicated(subset=None, keep='first')
subset:如果你認(rèn)為幾個(gè)字段重復(fù),則數(shù)據(jù)重復(fù),就把那幾個(gè)字段以列表形式放到subset后面。默認(rèn)是所有字段重復(fù)為重復(fù)數(shù)據(jù)。
keep:
- 默認(rèn)為'first' ,也就是如果有重復(fù)數(shù)據(jù),則第一條出現(xiàn)的定義為False,后面的重復(fù)數(shù)據(jù)為True。
- 如果為'last',也就是如果有重復(fù)數(shù)據(jù),則最后一條出現(xiàn)的定義為False,后面的重復(fù)數(shù)據(jù)為True。
- 如果為False,則所有重復(fù)的為True
下面舉例
df = pd.DataFrame({
'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
'rating': [4, 4, 3.5, 15, 5]
})
df

# 默認(rèn)為keep="first",第一條重復(fù)的為False,后面重復(fù)的為True # 一般不會(huì)設(shè)置keep,保持keep為默認(rèn)值。 df.duplicated() 結(jié)果 0 False 1 True 2 False 3 False 4 False dtype: bool # keep="last",,最后一條重復(fù)的為False,后面重復(fù)的為True df.duplicated(keep="last") 結(jié)果 0 True 1 False 2 False 3 False 4 False dtype: bool # keep=False,,所有重復(fù)的為True df.duplicated(keep=False) 結(jié)果 0 True 1 True 2 False 3 False 4 False dtype: bool # sub是子,subset是子集 # 標(biāo)記只要brand重復(fù)為重復(fù)值。 df.duplicated(subset='brand') 結(jié)果 0 False 1 True 2 False 3 True 4 True dtype: bool # 只要brand重復(fù)brand和style重復(fù)的為重復(fù)值。 df.duplicated(subset=['brand','style']) 結(jié)果 0 False 1 True 2 False 3 False 4 True dtype: bool # 顯示重復(fù)記錄,通過布爾索引 df[df.duplicated()]

# 查詢重復(fù)值的個(gè)數(shù)。 df.duplicated().sum() 結(jié)果 1
到此這篇關(guān)于pandas中DataFrame檢測(cè)重復(fù)值的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)pandas DataFrame檢測(cè)重復(fù)值內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
使用Python的Twisted框架編寫簡(jiǎn)單的網(wǎng)絡(luò)客戶端
這篇文章主要介紹了使用Python的Twisted框架編寫簡(jiǎn)單的網(wǎng)絡(luò)客戶端,翻譯自Twisted文檔,包括一個(gè)簡(jiǎn)單的IRC客戶端的實(shí)現(xiàn),需要的朋友可以參考下2015-04-04
Django實(shí)現(xiàn)drf搜索過濾和排序過濾
當(dāng)我們需要對(duì)后臺(tái)的數(shù)據(jù)進(jìn)行過濾的時(shí)候,drf有兩種,搜索過濾和排序過濾。本文就詳細(xì)的介紹這兩種的實(shí)現(xiàn),感興趣的可以了解一下2021-06-06
基于OpenCV4.2實(shí)現(xiàn)單目標(biāo)跟蹤
這篇文章主要介紹了如何和何時(shí)使用OpenCV 4.2中可用的8種不同的跟蹤器- BOOSTING, MIL, KCF, TLD, MEDIANFLOW, GOTURN, MOSSE和CSRT,并用他們實(shí)現(xiàn)單目標(biāo)跟蹤,需要的可以參考一下2022-03-03
Python可視化學(xué)習(xí)之seaborn繪制線型回歸曲線
這篇文章主要為大家介紹了如何利用seaborn繪制變量之間線型回歸(linear regression)曲線,2文中涉及如下兩個(gè)重要函數(shù):seaborn.regplot和seaborn.lmplot,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2022-02-02
Python爬蟲_城市公交、地鐵站點(diǎn)和線路數(shù)據(jù)采集實(shí)例
下面小編就為大家分享一篇Python爬蟲_城市公交、地鐵站點(diǎn)和線路數(shù)據(jù)采集實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-01-01
Python實(shí)現(xiàn)學(xué)生管理系統(tǒng)的示例代碼
學(xué)生管理系統(tǒng)是一個(gè)常見的應(yīng)用程序,它可以幫助學(xué)校、教育機(jī)構(gòu)或教師管理學(xué)生的信息,本文將介紹如何利用Python開發(fā)一個(gè)學(xué)生管理系統(tǒng),需要的可以參考一下2023-07-07
Python中關(guān)于print和return的區(qū)別
這篇文章主要介紹了Python中關(guān)于print和return的區(qū)別,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-02-02
學(xué)會(huì)這29個(gè)常用函數(shù),你就是Pandas專家
Pandas?無疑是?Python?處理表格數(shù)據(jù)最好的庫之一,但是很多新手無從下手,這里總結(jié)出最常用的?29?個(gè)函數(shù),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2022-11-11

