Python實現(xiàn)類別變量的獨熱編碼
在數(shù)據(jù)處理與分析領(lǐng)域,對數(shù)值型與字符型類別變量加以編碼是不可或缺的預(yù)處理操作;這里介紹兩種不同的方法。
1 OneHotEncoder
首先導(dǎo)入必要的模塊。
import pandas as pd from sklearn.preprocessing import OneHotEncoder
其中,OneHotEncoder是我們實現(xiàn)獨熱編碼的關(guān)鍵模塊。
接下來,導(dǎo)入并顯示數(shù)據(jù)前五行。
test_data_1=pd.read_csv('G:/CropYield/03_DL/00_Data/onehot_test.csv',names=['EVI0610','EVI0626','SoilType'],header=0)
test_data_1.head(5)
關(guān)于這里導(dǎo)入數(shù)據(jù)代碼的解釋,大家可以查看多變量兩兩相互關(guān)系聯(lián)合分布圖的Python繪制與Python TensorFlow深度學(xué)習(xí)回歸代碼:DNNRegressor這兩篇文章,這里就不再贅述啦~
數(shù)據(jù)前五行展示如下圖。其中,前兩列'EVI0610'與'EVI0626'為數(shù)值型連續(xù)變量,而'SoilType'為數(shù)值型類別變量。我們要做的,也就是將第三列'SoilType'進行獨熱編碼。

接下來,進行獨熱編碼的配置。
ohe=OneHotEncoder(handle_unknown='ignore') ohe.fit(test_data_1)
在這里,第一行是對獨熱編碼的配置,第二行則是對我們剛剛導(dǎo)入的數(shù)據(jù)進行獨熱編碼處理。得到一個獨熱編碼配置的輸出結(jié)果。

接下來,看看獨熱編碼處理后,將我們的數(shù)據(jù)分成了哪些類別。
ohe.categories_
得到結(jié)果如下圖。

可以發(fā)現(xiàn),一共有三個array,為什么呢?仔細(xì)看可以發(fā)現(xiàn),獨熱編碼是將我們導(dǎo)入的三列數(shù)據(jù)全部都當(dāng)作類別變量來處理了。之所以會這樣,是因為我們在一開始沒有表明哪一列是類別變量,需要進行獨熱編碼;而哪一列不是類別變量,從而不需要進行獨熱編碼。
那么,我們?nèi)绾螌崿F(xiàn)上述需求,告訴程序我們要對哪一行進行獨熱編碼呢?在老版本的sklearn中,我們可以借助categorical_features=[x]參數(shù)來實現(xiàn)這一功能,但是新版本sklearn取消了這一參數(shù)。那么此時,一方面,我們可以借助ColumnTransformer來實現(xiàn)這一過程,另一方面,我們可以直接對需要進行轉(zhuǎn)換的列加以處理。后者相對較為容易理解,因此本文對后者進行講解。
我們將test_data_1中的'SoilType'列作為索引,從而僅僅對該列數(shù)據(jù)加以獨熱編碼。
ohe_column=pd.DataFrame(ohe.fit_transform(test_data_1[['SoilType']]).toarray()) ohe_column.head(5)
其中,[['SoilType']]表示僅僅對這一列進行處理。得到結(jié)果如下圖。

可以看到,原來的'SoilType'列現(xiàn)在成為了63列的編碼列,那么這樣的話,說明我們原先的'SoilType'應(yīng)該一共是有63個不同的數(shù)值。是不是這個樣子呢?我們來檢查一下。
count=pd.DataFrame(test_data_1['SoilType'].value_counts()) print(count)
得到結(jié)果如下。

好的,沒有問題:可以看到此結(jié)果共有63行,也就是'SoilType'列原本是有63個不同的值的,證明我們的獨熱編碼沒有出錯。
此時看一下我們的test_data_1數(shù)據(jù)目前長什么樣子。
test_data_1.head(5)

是的,我們僅僅對'SoilType'列做了處理,沒有影響到整個初始數(shù)據(jù)。那么先將原本的'SoilType'列剔除掉。
test_data_1=test_data_1.drop(['SoilType'],axis=1) test_data_1.head(5)

再將經(jīng)過獨熱編碼處理后的63列加上。
test_data_1.join(ohe_column)

大功告成!
但是這里還有一個問題,我們經(jīng)過獨熱編碼所得的列名稱是以數(shù)字來命名的,非常不方便。因此,有沒有什么辦法可以在獨熱編碼進行的同時,自動對新生成的列加以重命名呢?
2 pd.get_dummies
pd.get_dummies是一個最好的辦法!其具體用法與上述OneHotEncoder類似,因此具體過程就不再贅述啦,大家看代碼就可以明白。
首先還是導(dǎo)入與上述內(nèi)容中一致的初始數(shù)據(jù)。
test_data_2=pd.read_csv('G:/CropYield/03_DL/00_Data/onehot_test.csv',names=['EVI0610','EVI0626','SoilType'],header=0)
test_data_2.head(5)

進行獨熱編碼并看看結(jié)果。
test_data_2_ohe=pd.get_dummies(test_data_2,columns=['SoilType']) test_data_2_ohe.head(5)

最終結(jié)果中,列名稱可以說是非常醒目,同時,共有65列數(shù)據(jù),自動刪除了原本的'SoilType'列,實現(xiàn)了“獨熱編碼”“新列重命名”與“原始列刪除”,可謂一舉三得,簡直是太方便啦~
到此這篇關(guān)于Python實現(xiàn)類別變量的獨熱編碼的文章就介紹到這了,更多相關(guān)Python獨熱編碼內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python數(shù)字圖像處理之高級形態(tài)學(xué)處理
這篇文章主要介紹了python數(shù)字圖像處理之高級形態(tài)學(xué)處理,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-04-04
Python實現(xiàn)的在特定目錄下導(dǎo)入模塊功能分析
這篇文章主要介紹了Python實現(xiàn)的在特定目錄下導(dǎo)入模塊功能,結(jié)合實例形式分析了Python基于系統(tǒng)函數(shù)及import語句實現(xiàn)模塊導(dǎo)入的相關(guān)操作技巧,需要的朋友可以參考下2019-02-02
python通過getopt模塊如何獲取執(zhí)行的命令參數(shù)詳解
這篇文章主要給大家介紹了關(guān)于python通過getopt模塊如何獲取執(zhí)行的命令參數(shù)的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。2017-12-12
Tensorflow?2.1完成對MPG回歸預(yù)測詳解
這篇文章主要為大家介紹了Tensorflow?2.1完成對MPG回歸預(yù)測詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-11-11
Python函數(shù)可變參數(shù)定義及其參數(shù)傳遞方式實例詳解
這篇文章主要介紹了Python函數(shù)可變參數(shù)定義及其參數(shù)傳遞方式,以實例形式較為詳細(xì)的分析了Python函數(shù)參數(shù)的使用技巧,需要的朋友可以參考下2015-05-05
python pandas最常用透視表實現(xiàn)應(yīng)用案例
透視表是一種可以對數(shù)據(jù)動態(tài)排布并且分類匯總的表格格式,它在數(shù)據(jù)分析中有著重要的作用和地位,在本文中,我將為你介紹python中如何使用pandas包實現(xiàn)透視表的功能,以及一些常見的應(yīng)用案例2024-01-01
Kali Linux安裝ipython2 和 ipython3的方法
今天小編就為大家分享一篇Kali Linux安裝ipython2 和 ipython3的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07

