pandas數(shù)據(jù)處理之 標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)
機器學(xué)習(xí)中,當(dāng)我們在進(jìn)行數(shù)據(jù)預(yù)處理的時候,對于標(biāo)簽列非字符的數(shù)據(jù),我們往往需要將其轉(zhuǎn)換成字符,因為有的算法可能不支持非數(shù)字類型來做特征。
那么怎么快捷地來著這個轉(zhuǎn)換呢,請看我的示例:
1.構(gòu)建測試數(shù)據(jù)
import pandas as pd array = ['good','bad','well','bad','good','good','well','good']
2.數(shù)據(jù)轉(zhuǎn)換下,并獲取標(biāo)簽列的字典
df = pd.DataFrame(array,columns=['status']) status_dict = df['status'].unique().tolist()

3.使用函數(shù)進(jìn)行轉(zhuǎn)換
df['transfromed']=df['status'].apply(lambda x : status_dict.index(x))

這樣,就將標(biāo)簽列處理好了哈
等用完之后,再轉(zhuǎn)回來
df['transfromed1']= df['transfromed'].apply(lambda x : status_dict[x])

補充:pandas factorize將字符串特征轉(zhuǎn)化為數(shù)字特征
將原始數(shù)據(jù)中的字符串特征轉(zhuǎn)化為模型可以識別的數(shù)字特征可是使用pandas自帶的factorzie方法。
原始數(shù)據(jù)的job特征值如下

都是字符串特征,無法用于訓(xùn)練,當(dāng)然可以單獨建立map硬編碼處理,但是pandas已經(jīng)封裝好了相應(yīng)的方法。
data = pd.read_csv("data/test_set.csv")
data["job"] = pd.factorize(data["job"])[0].astype(np.uint16)

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
matplotlib調(diào)整子圖間距,調(diào)整整體空白的方法
今天小編就為大家分享一篇matplotlib調(diào)整子圖間距,調(diào)整整體空白的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-08-08
python GUI庫圖形界面開發(fā)之PyQt5窗口背景與不規(guī)則窗口實例
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5窗口背景與不規(guī)則窗口實例,需要的朋友可以參考下2020-02-02
Python實現(xiàn)遍歷數(shù)據(jù)庫并獲取key的值
本文給大家分享的是Python實現(xiàn)遍歷數(shù)據(jù)庫并獲取key的值的方法,主要是使用for循環(huán)來實現(xiàn),有需要的小伙伴可以參考下。2015-05-05

