pandas:get_dummies()與pd.factorize()的用法及區(qū)別說明
1.get_dummies()
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables
>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
2.pd.factorize()
pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable
Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable
Pandas有一個(gè)方法叫做factorize(),它可以創(chuàng)建一些數(shù)字,來表示類別變量,對每一個(gè)類別映射一個(gè)ID,這種映射最后只生成一個(gè)特征,不像dummy那樣生成多個(gè)特征。
| Parameters: |
sort : boolean, default False
na_sentinel: int, default -1
|
|---|---|
| Returns: |
labels : the indexer to the original array uniques : the unique Index |
labels:對應(yīng)的編碼array
uniques:需要編碼的類型
補(bǔ)充:pandas.get_dummies 的使用及含義
get_dummies 是利用pandas實(shí)現(xiàn)one hot encode的方式
get_dummies參數(shù)如下:
pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )
data : array-like,Series或DataFrame
prefix :string,字符串列表或字符串dict,默認(rèn)為None,
用于追加DataFrame列名的字符串。在DataFrame上調(diào)用get_dummies時(shí),傳遞一個(gè)長度等于列數(shù)的列表。或者,前綴 可以是將列名稱映射到前綴的字典。
prefix_sep : string,默認(rèn)為'_'
如果附加前綴,分隔符/分隔符要使用?;蛘邆鬟f與前綴一樣的列表或字典。
dummy_na : bool,默認(rèn)為False
如果忽略False NaN,則添加一列以指示NaN。
columns : 類似列表,默認(rèn)為無
要編碼的DataFrame中的列名稱。如果列是None,那么所有與列 對象或類別 D型細(xì)胞將被轉(zhuǎn)換。
sparse : bool,默認(rèn)為False
偽編碼列是否應(yīng)由SparseArray(True)或常規(guī)NumPy數(shù)組(False)支持。
drop_first : bool,默認(rèn)為False
是否通過刪除第一級別從k分類級別獲得k-1個(gè)假人。
版本0.18.0中的新功能。
dtype: D型,默認(rèn)np.uint8
新列的數(shù)據(jù)類型。只允許一個(gè)dtype。
版本0.23.0中的新功能。
實(shí)例

prefix自定義前綴

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python 裝飾器帶參數(shù)和不帶參數(shù)步驟詳解
裝飾器是Python語言中一種特殊的語法,用于在不修改原函數(shù)代碼的情況下,為函數(shù)添加額外的功能或修改函數(shù)的行為,這篇文章主要介紹了python裝飾器帶參數(shù)和不帶參數(shù)的相關(guān)知識(shí),需要的朋友可以參考下2024-05-05
pandas實(shí)現(xiàn)處理TB級別的數(shù)據(jù)
這篇文章主要介紹了pandas實(shí)現(xiàn)處理TB級別的數(shù)據(jù),具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2025-04-04
上手簡單,功能強(qiáng)大的Python爬蟲框架——feapder
這篇文章主要介紹了上手簡單,功能強(qiáng)大的Python爬蟲框架——feapder的使用教程,幫助大家更好的利用python進(jìn)行爬蟲,感興趣的朋友可以了解下2021-04-04
Python爬蟲簡單運(yùn)用爬取代理IP的實(shí)現(xiàn)
這篇文章主要介紹了Python爬蟲簡單運(yùn)用爬取代理IP的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12

