在 Python 中進(jìn)行 One-Hot 編碼
1.介紹?
在計(jì)算機(jī)科學(xué)中,數(shù)據(jù)可以用很多不同的方式表示,自然而然地,每一種方式在某些領(lǐng)域都有其優(yōu)點(diǎn)和缺點(diǎn)。
由于計(jì)算機(jī)無(wú)法處理分類(lèi)數(shù)據(jù),因?yàn)檫@些類(lèi)別對(duì)它們沒(méi)有意義,如果我們希望計(jì)算機(jī)能夠處理這些信息,就必須準(zhǔn)備好這些信息。
此操作稱(chēng)為預(yù)處理。 預(yù)處理的很大一部分是編碼 - 以計(jì)算機(jī)可以理解的方式表示每條數(shù)據(jù)(該名稱(chēng)的字面意思是“轉(zhuǎn)換為計(jì)算機(jī)代碼”)。
在計(jì)算機(jī)科學(xué)的許多分支中,尤其是機(jī)器學(xué)習(xí)和數(shù)字電路設(shè)計(jì)中,One-Hot Encoding 被廣泛使用。
在本文中,我們將解釋什么是 one-hot 編碼,并使用一些流行的選擇(Pandas 和 Scikit-Learn)在 Python 中實(shí)現(xiàn)它。 我們還將比較它與計(jì)算機(jī)中其他類(lèi)型表示的有效性、優(yōu)點(diǎn)和缺點(diǎn),以及它的應(yīng)用。
2.什么是One-Hot編碼?
One-hot Encoding 是一種向量表示,其中向量中的所有元素都是 0,除了一個(gè),它的值是 1,其中 1 表示指定元素類(lèi)別的布爾值。
還有一個(gè)類(lèi)似的實(shí)現(xiàn),稱(chēng)為One-Cold Encoding,其中向量中的所有元素都是 1,除了 1 的值是 0。
例如,[0, 0, 0, 1, 0] 和 [1 ,0, 0, 0, 0] 可以是One-hot 向量的一些示例。 與此類(lèi)似的技術(shù),也用于表示數(shù)據(jù),例如統(tǒng)計(jì)中的虛擬變量。
這與其他編碼方案非常不同,其他編碼方案都允許多個(gè)位的值為 1。 下表比較了從 0 到 7 的數(shù)字在二進(jìn)制、格雷碼和 one-hot 中的表示:

實(shí)際上,對(duì)于每個(gè) one-hot 向量,我們會(huì)問(wèn) n 個(gè)問(wèn)題,其中 n 是我們擁有的類(lèi)別數(shù):
這是數(shù)字1嗎? 這是數(shù)字2嗎? ......這是數(shù)字7嗎?
每個(gè)“0”都是“假”,一旦我們?cè)谙蛄恐姓业?ldquo;1”,問(wèn)題的答案就是“真”。
One-hot 編碼將分類(lèi)特征轉(zhuǎn)換為一種更適合分類(lèi)和回歸算法的格式。 它在需要多種類(lèi)型數(shù)據(jù)表示的方法中非常有用。
例如,一些向量可能最適合回歸(基于以前的返回值逼近函數(shù)),而一些可能最適合分類(lèi)(分類(lèi)為固定集/類(lèi),通常是二元的):

這里我們有六個(gè)分類(lèi)數(shù)據(jù)的樣本輸入。 此處使用的編碼類(lèi)型稱(chēng)為“label encoding”——它非常簡(jiǎn)單:我們只需為分類(lèi)值分配一個(gè) ID。
我們的計(jì)算機(jī)現(xiàn)在知道如何表示這些類(lèi)別,因?yàn)樗廊绾翁幚頂?shù)字。 然而,這種編碼方法并不是很有效,因?yàn)樗匀粫?huì)賦予更高的數(shù)字更高的權(quán)重。
說(shuō)我們的“Strawberries”類(lèi)別大于或小于“Apples”是沒(méi)有意義的,或者將類(lèi)別“Lemon”添加到“Peach”會(huì)給我們一個(gè)類(lèi)別“Orange”,因?yàn)檫@些值不是序數(shù)。
如果我們用 one-hot 編碼表示這些類(lèi)別,我們實(shí)際上會(huì)用列替換行。 我們通過(guò)為每個(gè)給定類(lèi)別創(chuàng)建一個(gè)布爾列來(lái)實(shí)現(xiàn)這一點(diǎn),其中只有這些列之一可以為每個(gè)樣本取值 1:

我們可以從上表中看出,與二進(jìn)制或格雷碼相比,one-hot 表示需要更多的數(shù)字。 對(duì)于n個(gè)數(shù)字,one-hot編碼只能表示n個(gè)值,而B(niǎo)inary或Gray編碼可以用n個(gè)數(shù)字表示2n個(gè)值。
?3.實(shí)現(xiàn)-Pandas?
讓我們看一個(gè)簡(jiǎn)單的示例,說(shuō)明如何通過(guò) one-hot 編碼方案將數(shù)據(jù)集中的分類(lèi)列中的值轉(zhuǎn)換為對(duì)應(yīng)的數(shù)值。
我們將創(chuàng)建一個(gè)非常簡(jiǎn)單的數(shù)據(jù)集 - 國(guó)家及其 ID 的列表:

在上面的腳本中,我們使用兩個(gè)列表(即 ids 和國(guó)家/地區(qū))創(chuàng)建了一個(gè)Pandas dataframe,稱(chēng)為 df。 如果您在數(shù)據(jù)幀上調(diào)用 head() 方法,會(huì)看到以下結(jié)果:

Countries列包含分類(lèi)值。 我們可以使用 get_dummies() 函數(shù)將Countries列中的值轉(zhuǎn)換為one-hot編碼向量:

我們將 Country 作為 get_dummies() 方法的前綴屬性的值傳遞,因此您可以在輸出中的每個(gè)單熱編碼列的標(biāo)題之前看到字符串 Country 前綴。

?4.實(shí)現(xiàn)-Scikit-Learn?
另一種方法是使用另一個(gè)流行的庫(kù) - Scikit-Learn。 為此,它提供了 OneHotEncoder 類(lèi)和 LabelBinarizer 類(lèi)。
首先,導(dǎo)入庫(kù)LabelBinarizer:

打印y值:

同樣,我們可以使用支持多列數(shù)據(jù)的 OneHotEncoder 類(lèi),與之前的類(lèi)不同:

5.?One-hot編碼在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用?
如上所述,計(jì)算機(jī)不太擅長(zhǎng)處理分類(lèi)數(shù)據(jù)。 雖然我們很好地理解分類(lèi)數(shù)據(jù),但這是由于計(jì)算機(jī)不具備的一種先決知識(shí)。
大多數(shù)機(jī)器學(xué)習(xí)技術(shù)和模型使用非常有限的數(shù)據(jù)集(通常是二進(jìn)制)。 神經(jīng)網(wǎng)絡(luò)消耗數(shù)據(jù)并產(chǎn)生 0..1 范圍內(nèi)的結(jié)果,我們很少會(huì)超出該范圍。
簡(jiǎn)而言之,絕大多數(shù)機(jī)器學(xué)習(xí)算法都會(huì)接收樣本數(shù)據(jù)(“訓(xùn)練數(shù)據(jù)”),從中提取特征。 基于這些特征,創(chuàng)建了一個(gè)數(shù)學(xué)模型,然后用于進(jìn)行預(yù)測(cè)或決策,而無(wú)需明確編程來(lái)執(zhí)行這些任務(wù)。
一個(gè)很好的例子是分類(lèi),其中輸入在技術(shù)上可以是無(wú)界的,但輸出通常僅限于幾個(gè)類(lèi)別。 在二元分類(lèi)的情況下(假設(shè)我們正在教一個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)貓和狗進(jìn)行分類(lèi)),我們的映射為 0 代表貓,1 代表狗。
大多數(shù)情況下,我們希望對(duì)其進(jìn)行預(yù)測(cè)的訓(xùn)練數(shù)據(jù)是分類(lèi)的,就像上面提到的帶有水果的例子一樣。 同樣,雖然這對(duì)我們很有意義,但這些詞本身對(duì)算法沒(méi)有意義,因?yàn)樗焕斫馑鼈儭?/p>
在這些算法中使用one-hot編碼來(lái)表示數(shù)據(jù)在技術(shù)上不是必需的,但如果我們想要一個(gè)有效的實(shí)現(xiàn),它非常有用。
到此這篇關(guān)于在 Python 中進(jìn)行 One-Hot 編碼的文章就介紹到這了,更多相關(guān) Python 中進(jìn)行 One-Hot 編碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
解決django中ModelForm多表單組合的問(wèn)題
今天小編就為大家分享一篇解決django中ModelForm多表單組合的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07
詳解python百行有效代碼實(shí)現(xiàn)漢諾塔小游戲(簡(jiǎn)約版)
這篇文章主要介紹了詳解python百行有效代碼實(shí)現(xiàn)漢諾塔小游戲(簡(jiǎn)約版),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-10-10
Python3網(wǎng)絡(luò)爬蟲(chóng)中的requests高級(jí)用法詳解
本節(jié)我們?cè)賮?lái)了解下 Requests 的一些高級(jí)用法,如文件上傳,代理設(shè)置,Cookies 設(shè)置等等。感興趣的朋友跟隨小編一起看看吧2019-06-06
wxPython實(shí)現(xiàn)整點(diǎn)報(bào)時(shí)
這篇文章主要為大家詳細(xì)介紹了wxPython實(shí)現(xiàn)整點(diǎn)報(bào)時(shí),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-11-11
Pandas.DataFrame時(shí)間序列數(shù)據(jù)處理的實(shí)現(xiàn)
本文主要介紹了Pandas.DataFrame時(shí)間序列數(shù)據(jù)處理的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02
Python使用tablib生成excel文件的簡(jiǎn)單實(shí)現(xiàn)方法
這篇文章主要介紹了Python使用tablib生成excel文件的方法,結(jié)合實(shí)例形式分析了tablib模塊的相關(guān)使用技巧,需要的朋友可以參考下2016-03-03

