pandas 中對特征進(jìn)行硬編碼和onehot編碼的實現(xiàn)
首先介紹兩種編碼方式硬編碼和onehot編碼,在模型訓(xùn)練所需要數(shù)據(jù)中,特征要么為連續(xù),要么為離散特征,對于那些值為非數(shù)字的離散特征,我們要么對他們進(jìn)行硬編碼,要么進(jìn)行onehot編碼,轉(zhuǎn)化為模型可以用于訓(xùn)練的特征
初始化一個DataFrame
import pandas as pd df = pd.DataFrame([ ['green', 'M', 20, 'class1'], ['red', 'L', 21, 'class2'], ['blue', 'XL',30, 'class3']]) df.columns = ['color', 'size', 'weight', 'class label']

硬編碼:
將feature的值從0(或者1)開始進(jìn)行連續(xù)編碼,比如color進(jìn)行硬編碼,color的值有三個,分別為編碼為1,2,3
可以用如下操作,對color字段下的值進(jìn)行硬編碼
colorMap = {elem:index+1 for index,elem in enumerate(set(df["color"]))}
df['color'] = df['color'].map(colorMap)
這樣可以進(jìn)行硬編碼了,之前我的寫法是,先生成map,然后對每一行進(jìn)行apply,顯然沒有上述代碼簡便
onehot編碼:
將某個字段下所有值橫向展開,對于每條數(shù)據(jù),其在對應(yīng)展開的值上的值就是1,聽起來比較繞口,看下面的例子就知道了,python中,pandas 用get_dummies()方法即可
data1 = pd.get_dummies(df[["color"]])

如果要對多個feature 進(jìn)行onehot,這樣即可df[[fea1,fea2..]]
對于onehot以后的數(shù)據(jù),如果需要原有的數(shù)據(jù)合并,直接拿原來的join onehot的數(shù)據(jù)即可
res = df.join(data1)

join操作默認(rèn)是根據(jù)index來進(jìn)行join的,而get_dummies()不會改變index
以上這篇pandas 中對特征進(jìn)行硬編碼和onehot編碼的實現(xiàn)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python Opencv使用ann神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字功能
這篇文章主要介紹了opencv(python)使用ann神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字,由于這里主要研究knn算法,為了圖簡單,直接使用Keras的mnist手寫數(shù)字解析模塊,本文通過實例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2022-07-07
python 內(nèi)置庫wsgiref的使用(WSGI基礎(chǔ)入門)
WSGI(web服務(wù)器網(wǎng)關(guān)接口)主要規(guī)定了服務(wù)器端和應(yīng)用程序之間的接口,即規(guī)定了請求的URL到后臺處理函數(shù)之間的映射該如何實現(xiàn)。wsgiref是一個幫助開發(fā)者開發(fā)測試的Python內(nèi)置庫,程序員可以通過這個庫了解WSGI的基本運行原理,但是不能把它用在生產(chǎn)環(huán)境上。2021-06-06
Python創(chuàng)建一個空的dataframe,并循環(huán)賦值的方法
今天小編就為大家分享一篇Python創(chuàng)建一個空的dataframe,并循環(huán)賦值的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11
Python?+?Tkinter連接本地MySQL數(shù)據(jù)庫簡單實現(xiàn)注冊登錄
這篇文章主要介紹了Python?+?Tkinter連接本地MySQL數(shù)據(jù)庫簡單實現(xiàn)注冊登錄。下面文章著情介紹,需要的小伙伴可以參考一下2022-01-01
pytorch如何自定義forward和backward函數(shù)
PyTorch自動求導(dǎo)功能強大,但在特定情況下需要用戶自行定義backward函數(shù),通過實例解釋了保存變量、計算梯度、鏈?zhǔn)椒▌t等核心概念,并展示了如何通過自定義函數(shù)集成到網(wǎng)絡(luò)中以及如何正確返回梯度,此外,還討論了多輸出情況下的梯度傳遞2024-10-10
Python正則表達(dá)式中g(shù)roup與groups的用法詳解
本文主要介紹了Python正則表達(dá)式中g(shù)roup與groups的用法詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02
使用Python建立RNN實現(xiàn)二進(jìn)制加法的示例代碼
這篇文章主要介紹了使用Python建立RNN實現(xiàn)二進(jìn)制加法的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03
python selenium爬取斗魚所有直播房間信息過程詳解
這篇文章主要介紹了python selenium爬取斗魚所有直播房間信息過程詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-08-08

