淺談pandas中對nan空值的判斷和陷阱
pandas基于numpy,所以其中的空值nan和numpy.nan是等價(jià)的。numpy中的nan并不是空對象,其實(shí)際上是numpy.float64對象,所以我們不能誤認(rèn)為其是空對象,從而用bool(np.nan)去判斷是否為空值,這是不對的。
對于pandas中的空值,我們該如何判斷,并且有哪些我們?nèi)菀椎暨M(jìn)去的陷阱,即不能用怎么樣的方式去判斷呢?
可以判斷pandas中單個(gè)空值對象的方式:
1、利用pd.isnull(),pd.isna();
2、利用np.isnan();
3、利用is表達(dá)式;
4、利用in表達(dá)式。
不可以用來判斷pandas單個(gè)空值對象的方式:
1、不可直接用==表達(dá)式判斷;
2、不可直接用bool表達(dá)式判斷;
3、不可直接用if語句判斷。
示例:
import pandas as pd
import numpy as np
na=np.nan
# 可以用來判斷空值的方式
pd.isnull(na) # True
pd.isna(na) # True
np.isnan(na) # True
na is np.nan # True
na in [np.nan] # True
# 不可以直接用來判斷的方式,即以下結(jié)果和我們預(yù)期不一樣
na == np.nan # False
bool(na) # True
if na:
print('na is not null') # Output: na is not null
# 不可以直接用python內(nèi)置函數(shù)any和all
any([na]) # True
all([na]) #True
總結(jié)
numpy.nan是一個(gè)numpy.float64的非空對象,所以不能直接用bool表達(dá)式去判斷,故一切依賴于布爾表達(dá)式的判斷方式都不行,比如if語句。
對于pandas中空值的判斷,我們只能通過pandas或者numpy的函數(shù)和is表達(dá)式去判斷,不能用python的內(nèi)置函數(shù)any或all判斷。
比較奇怪的一點(diǎn)是pandas中空值的判斷可以用is表達(dá)式判斷,但是不能用==表達(dá)式判斷。我們知道,對于is表達(dá)式,如果返回True,表示這兩個(gè)引用指向的是同一個(gè)內(nèi)存對象,即內(nèi)存地址是一樣的,一般同一個(gè)對象的不同引用的值也應(yīng)該是相等的,所以一般is表達(dá)式為True,那么==表達(dá)式也為True。
但是對于numpy.nan對象顯然不是這樣的,因?yàn)槠淇梢杂胕s表達(dá)式判斷,即當(dāng)is表達(dá)式為True時(shí),但==表達(dá)式為False,這說明雖然不同numpy.nan變量引用指向的是同一個(gè)內(nèi)存地址,但是其具有自己的值屬性,值是不一樣的,所以不能用==來判斷,這點(diǎn)需要注意。
補(bǔ)充:Pandas+Numpy 數(shù)據(jù)中空值的處理操作:判斷、查找、填充及刪除
本文整理了數(shù)據(jù)中空值的處理操作,主要內(nèi)容如下:
為了便于描述,定義本文示例數(shù)據(jù)為如下結(jié)構(gòu):
df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"]) df #定義示例數(shù)據(jù)df
判斷數(shù)據(jù)中是否有空值
pandas isnull()函數(shù)
df.isnull() #返回df中各元素是否為空的同df大小的數(shù)據(jù)框 df["A"].isnull() #判斷A列中空值情況 df[["A","B"]].isnull() # 指定多列進(jìn)行空值判斷,對于本文實(shí)例,下述代碼效果同df.isnull()
pandas notnull()函數(shù)
df.notnull() #判斷df中各元素是否 不是 空值 df["A"].isnull() #判斷A列中非空值情況 df[["A","B"]].isnull() # 指定多列進(jìn)行非空值判斷,對于本文實(shí)例,下述代碼效果同df.notnull()
numpy np.isnan() 函數(shù)
np.isnan(df) # 等同于df.isnull() np.isnan(df["A"]) # 等同于 df["A"].isnull() np.isnan(df[["A","B"]]) # 等同于 df[["A","B"]].isnull()
統(tǒng)計(jì)空值/非空值數(shù)量
df.isnull().sum() # 統(tǒng)計(jì)每列的空值數(shù)量 df.notnull().sum() # 統(tǒng)計(jì)每列的非空值數(shù)量 df["A"].count() # A列 非空數(shù)量 df.count() # 統(tǒng)計(jì)所有列的非空值數(shù)量 df.count(axis=1) # 每行非空值數(shù)量,axis=1 df["A"].sum() # A列 元素?cái)?shù)值之和
根據(jù)空值篩選數(shù)據(jù)
# 篩選出A列為空的所有行 df[df.A.isnull()] df[df["A"].isnull()] # 篩選出A列非空的所有行 df[df.A.notnull()] df[df["A"].notnull()] # 篩選出df中存在空值的行 df[df.isnull().values==True]
查找空值索引
np.where(np.isnan(df)) # df中空值所在的行索引及列索引 np.where(np.isnan(df.A)) # df中A列空值所在的行索引
刪除空值 dropna()函數(shù)
df.dropna() # 刪除存在空值的行,默認(rèn)axis=0按行,how=any每行存在一個(gè)空值就執(zhí)行刪除行操作 df.dropna(axis=1) # 刪除存在空值的列 df.dropna(how="all") # 刪除所有列都為空值的特定行 df.dropna(how = "any") # 刪除存在空值的行 # 對特定列空值進(jìn)行刪除 df.dropna(how="any",subset=["A"]) # 刪除A列中存在空值的行 df.dropna(how="any",subset=["A","B"]) # 刪除A,B列中只要有一列存在空值的行 #將刪除操作作用于原數(shù)據(jù),修改替換原數(shù)據(jù) df.dropna(how="all",subset=["A","B"],inplace=True) # 刪除A,B列都為空值的行,并替換原數(shù)據(jù)
填充空值fillna()函數(shù)
# 用指定的數(shù)字來填充
df.fillna(0) # 用0來填充df中的空值
# 用指定的函數(shù)統(tǒng)計(jì)值來填充
df.fillna(df.mean()) # 用df中數(shù)據(jù)的平均值來填充空值
df.fillna(df.mean()["A"]) #指定用A列數(shù)據(jù)均值來填充df中空值
df.fillna(df.sum()) # 用df中數(shù)據(jù)的和來填充空值
# 用字典來填充
values = {'A': 0, 'B': 1} # A列空值用0填充,B列空值用1填充
df.fillna(value=values)
# 用指定字符串來填充空值
df.fillna("unkown")
# 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None}
# 每列的空值,用其列下方非空數(shù)值填充
df.fillna(method="backfill")
df.fillna(method="bfill") # 同backfill
# 每列的空值,用其所在列上方非空數(shù)值填充,若上方?jīng)]有元素,保持空值
df.fillna(method="ffill")
df.fillna(method="pad") # 同 ffill
#limit參數(shù)設(shè)置填充空值的最大個(gè)數(shù)
df.fillna(0,limit=1) # 每列最多填充1個(gè)空值,超過范圍的空值依然為空
#inplace參數(shù)空值是否修改原數(shù)據(jù)df
df.fillna(0,inplace=True) # inplace為true,將修改作用于原數(shù)據(jù)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
- python中pandas.DataFrame對行與列求和及添加新行與列示例
- python 使用pandas計(jì)算累積求和的方法
- Python學(xué)習(xí)筆記之pandas索引列、過濾、分組、求和功能示例
- python pandas消除空值和空格以及 Nan數(shù)據(jù)替換方法
- Python pandas.DataFrame 找出有空值的行
- python解決pandas處理缺失值為空字符串的問題
- pandas 缺失值與空值處理的實(shí)現(xiàn)方法
- pandas 添加空列并賦空值案例
- Python pandas之求和運(yùn)算和非空值個(gè)數(shù)統(tǒng)計(jì)
相關(guān)文章
利用python和百度地圖API實(shí)現(xiàn)數(shù)據(jù)地圖標(biāo)注的方法
這篇文章主要介紹了利用python和百度地圖API實(shí)現(xiàn)數(shù)據(jù)地圖標(biāo)注的方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-05-05
利用Python實(shí)現(xiàn)讀取照片的Exif信息
這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)讀取照片的Exif信息,文中的示例代碼簡潔易懂,具有一定的參考價(jià)值,有需要的小伙伴可以參考下2023-10-10
python中的iterator和"lazy?iterator"區(qū)別介紹
這篇文章主要介紹了python中的iterator和?“l(fā)azy?iterator“之間有什么區(qū)別,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-04-04
python pandas中DataFrame類型數(shù)據(jù)操作函數(shù)的方法
下面小編就為大家分享一篇python pandas中DataFrame類型數(shù)據(jù)操作函數(shù)的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-04-04
Python Locals變量管理新嘗試引領(lǐng)代碼風(fēng)潮
在Python中,locals()函數(shù)是一個(gè)強(qiáng)大的工具,它使程序員能夠訪問和操作當(dāng)前作用域內(nèi)的局部變量,本文將深入探討locals()函數(shù)的功能、應(yīng)用和重要性2024-01-01
python中的opencv和PIL(pillow)轉(zhuǎn)化操作
這篇文章主要介紹了python中的opencv和PIL(pillow)轉(zhuǎn)化操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03

