python重復(fù)值處理得方法
前言:
如果大家接觸過數(shù)據(jù)分析,那么大家可能都知道,最讓人頭疼的就是在數(shù)據(jù)錄入的過程中,不可避免的會(huì)產(chǎn)生重復(fù)值,缺失值和異常值了,python也提供了一些方法讓我們處理這些值。下面讓我們一塊來學(xué)習(xí)一下吧~
今天,先處理重復(fù)值,首先創(chuàng)建一個(gè)包含重復(fù)值的DataFrame,如下:
import pandas as pd data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b']) print(data)
我們將其打印出來,結(jié)果如下:

可以看出來第一第二行是重復(fù)的,這里的數(shù)據(jù)量比較少,可以直接肉眼觀察,但如果數(shù)據(jù)量多的時(shí)候,我們就需要用到diplicated()函數(shù)來查詢了,我們用它來查查上面data的重復(fù)值。
data[data.duplicated()]
我們可以看出,它把索引為1的行打印了出來,如果有3行一樣的呢?我們下面來試試!

import pandas as pd data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b']) data[data.duplicated()]
其結(jié)果如下:

可以看出,重復(fù)項(xiàng)出了第一個(gè)出現(xiàn)的數(shù)據(jù)外,都會(huì)顯示出來。
如果想統(tǒng)計(jì)出一共有多少行重復(fù)了,我們就可以用到sum()函數(shù),代碼如下:
data.duplicated().sum()

很多情況下,我們都需要?jiǎng)h除掉重復(fù)的數(shù)據(jù),這時(shí)候我們就可以用到drop_duplicated()函數(shù),我們將data的重復(fù)行刪除掉試試!
data.drop_duplicated()
剛執(zhí)行代碼時(shí)發(fā)生了錯(cuò)誤,原來是duplicates而不是duplicated!

但是要注意,用drop_duplicates()刪除重復(fù)項(xiàng)并不會(huì)影響data的結(jié)構(gòu),如果你要把data結(jié)構(gòu)改掉就要重新賦值。如果要用來刪除某列的重復(fù)值的話,直接在括號(hào)內(nèi)加上列名即可。
如下:

到此這篇關(guān)于python重復(fù)值處理得方法的文章就介紹到這了,更多相關(guān)python 重復(fù)值 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于Pytorch MaxUnpool2d中size操作方式
今天小編就為大家分享一篇關(guān)于Pytorch MaxUnpool2d中size操作方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01
在Python的Flask框架中驗(yàn)證注冊(cè)用戶的Email的方法
這篇文章主要介紹了在Python的Flask框架中驗(yàn)證注冊(cè)用戶的Email的方法,包括非常詳細(xì)的測(cè)試過程,極力推薦!需要的朋友可以參考下2015-09-09
使用python將微信image下.dat文件解密為.png的方法
這篇文章主要介紹了使用python將微信image下.dat文件解密為.png的方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-11-11
python中的print()函數(shù)end=' '的使用及說明
這篇文章主要介紹了python中的print()函數(shù)end=' '的使用及說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-02-02
win10下tensorflow和matplotlib安裝教程
這篇文章主要為大家詳細(xì)介紹了win10下tensorflow和matplotlib安裝教程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-09-09
Python實(shí)現(xiàn)將目錄中TXT合并成一個(gè)大TXT文件的方法
這篇文章主要介紹了Python實(shí)現(xiàn)將目錄中TXT合并成一個(gè)大TXT文件的方法,涉及Python針對(duì)目錄下文本文件的遍歷、讀取及寫入等技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07
Python實(shí)現(xiàn)Word和TXT文件格式之間的相互轉(zhuǎn)換
Word文檔(.doc或.docx)和純文本文件(.txt)是兩種常用的文件格式,本文將詳細(xì)介紹如何使用Python實(shí)現(xiàn)Word和TXT文件格式之間的相互轉(zhuǎn)換,文中有詳細(xì)的代碼示例供大家參考,需要的朋友可以參考下2024-07-07
用Python 爬取貓眼電影數(shù)據(jù)分析《無名之輩》
這篇文章主要介紹了用Python 爬取貓眼電影數(shù)據(jù)分析《無名之輩》,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-07-07
Python使用Beets模塊實(shí)現(xiàn)自動(dòng)整理音樂庫
Beets是一個(gè)功能強(qiáng)大的Python庫,用于處理音樂文件的元數(shù)據(jù),在本文中,我們將探討beets模塊的常見使用方法,感興趣的可以跟隨小編一起學(xué)習(xí)一下2024-03-03

