Pandas中的unique()和nunique()區(qū)別詳解
Pandas中Series和DataFrame的兩種數(shù)據(jù)類型中都有nunique()和unique()方法。這兩個(gè)方法作用很簡(jiǎn)單,都是求Series或Pandas中的不同值。而unique()方法返回的是去重之后的不同值,而nunique()方法則直接放回不同值的個(gè)數(shù)。
具體如下:

如果Series或DataFrame中沒(méi)有None值,則unique()方法返回的序列數(shù)據(jù)的長(zhǎng)度等于nunique()方法的返回值(如上述代碼中所展示的)。則當(dāng)Series或DataFrame中有None值時(shí),這兩個(gè)就不一定相等了。具體如下:

從上述結(jié)果可知, nunique()可以通過(guò)參數(shù)dropna來(lái)自定義設(shè)置在統(tǒng)計(jì)不同值過(guò)程中是否需要包含None值,而unique()方法中沒(méi)有可設(shè)置的參數(shù),該方法在統(tǒng)計(jì)時(shí)無(wú)法排除None值。
1 unique()
統(tǒng)計(jì)list中的不同值時(shí),返回的是array.它有三個(gè)參數(shù),可分別統(tǒng)計(jì)不同的量,返回的都是array.
當(dāng)list中的元素也是list時(shí),盡量不要用這種方法.
import numpy as np a = [1,5,4,2,3,3,5] # 返回一個(gè)array print(np.unique(a)) # [1 2 3 4 5] # 返回該元素在list中第一次出現(xiàn)的索引 print(np.unique(a,return_index=True)) # (array([1, 2, 3, 4, 5]), array([0, 3, 4, 2, 1])) # 返回原list中每個(gè)元素在新的list中對(duì)應(yīng)的索引 print(np.unique(a,return_inverse=True)) # (array([1, 2, 3, 4, 5]), array([0, 4, 3, 1, 2, 2, 4])) # 返回該元素在list中出現(xiàn)的次數(shù) print(np.unique(a,return_counts=True)) # (array([1, 2, 3, 4, 5]), array([1, 1, 2, 1, 2])) # 當(dāng)加參數(shù)時(shí),unique()返回的是一個(gè)tuple,這里利用了tuple的性質(zhì),即有多少個(gè)元素即可賦值給對(duì)應(yīng)的多少個(gè)變量 p,q,m,n = np.unique(a,return_index=True,return_inverse=True,return_counts=True) print(p,q,m,n) # [1 2 3 4 5] [0 3 4 2 1] [0 4 3 1 2 2 4] [1 1 2 1 2] # 注意當(dāng)list中的元素不是數(shù)字而是list的時(shí)候,輸出的數(shù)據(jù)類型與list中元素的長(zhǎng)度有關(guān) # 利用這種方法對(duì)list中元素去重或求里面元素的個(gè)數(shù)都不是好方法,很容易出錯(cuò)
統(tǒng)計(jì)series中的不同值時(shí),返回的是array,它沒(méi)有其它參數(shù)
import pandas as pd se = pd.Series([1,3,4,5,2,2,3]) print(se.unique()) # [1 3 4 5 2]
2.nunique()
可直接統(tǒng)計(jì)dataframe中每列的不同值的個(gè)數(shù),也可用于series,但不能用于list.返回的是不同值的個(gè)數(shù).
df=pd.DataFrame({'A':[0,1,1],'B':[0,5,6]})
print(df)
print(df.nunique())
# A B
# 0 0 0
# 1 1 5
# 2 1 6
# A 2
# B 3
# dtype: int64
也可與groupby結(jié)合使用,統(tǒng)計(jì)每個(gè)塊的不同值的個(gè)數(shù).
all_user_repay = all_user_repay.groupby(['user_id'])['listing_id'].agg(['nunique']).reset_index() # user_id nunique # 0 40 1 # 1 56 1 # 2 98 1 # 3 103 1 # 4 122 1
到此這篇關(guān)于Pandas中的unique()和nunique()區(qū)別詳解的文章就介紹到這了,更多相關(guān)Pandas unique()和nunique()內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- 用Python的pandas框架操作Excel文件中的數(shù)據(jù)教程
- 詳解pandas數(shù)據(jù)合并與重塑(pd.concat篇)
- pandas按行按列遍歷Dataframe的幾種方式
- pandas DataFrame的修改方法(值、列、索引)
- pandas DataFrame 行列索引及值的獲取的方法
- Pandas中resample方法詳解
- 用pandas中的DataFrame時(shí)選取行或列的方法
- Pandas將列表(List)轉(zhuǎn)換為數(shù)據(jù)框(Dataframe)
- pandas數(shù)據(jù)處理基礎(chǔ)之篩選指定行或者指定列的數(shù)據(jù)
相關(guān)文章
Pycharm添加虛擬解釋器報(bào)錯(cuò)問(wèn)題解決方案
這篇文章主要介紹了Pycharm添加虛擬解釋器報(bào)錯(cuò)問(wèn)題解決方案,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-10-10
Python map及filter函數(shù)使用方法解析
這篇文章主要介紹了Python map及filter函數(shù)使用方法解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-08-08
使用python requests模塊發(fā)送http請(qǐng)求及接收響應(yīng)的方法
用 python 編寫 http request 消息代碼時(shí),建議用requests庫(kù),因?yàn)閞equests比urllib內(nèi)置庫(kù)更為簡(jiǎn)捷,requests可以直接構(gòu)造get,post請(qǐng)求并發(fā)送,本文給大家介紹了使用python requests模塊發(fā)送http請(qǐng)求及接收響應(yīng)的方法,需要的朋友可以參考下2024-03-03
Python?Melt函數(shù)將寬格式的數(shù)據(jù)表轉(zhuǎn)換為長(zhǎng)格式
在數(shù)據(jù)處理和清洗中,melt函數(shù)是Pandas庫(kù)中一個(gè)強(qiáng)大而靈活的工具,它的主要功能是將寬格式的數(shù)據(jù)表轉(zhuǎn)換為長(zhǎng)格式,從而更方便進(jìn)行分析和可視化,本文將深入探討melt函數(shù)的用法、參數(shù)解析以及實(shí)際應(yīng)用場(chǎng)景2023-12-12

