pandas:get_dummies()與pd.factorize()的用法及區(qū)別說明

更新時(shí)間：2021年05月21日 08:48:51 作者：Rookiekk

這篇文章主要介紹了pandas:get_dummies()與pd.factorize()的用法及區(qū)別說明，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False)：Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None)：Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一個(gè)方法叫做factorize()，它可以創(chuàng)建一些數(shù)字，來表示類別變量，對每一個(gè)類別映射一個(gè)ID，這種映射最后只生成一個(gè)特征，不像dummy那樣生成多個(gè)特征。

Parameters:	sort : boolean, default False Sort by values na_sentinel: int, default -1 Value to mark “not found”
Returns:	labels : the indexer to the original array uniques : the unique Index

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels：對應(yīng)的編碼array

uniques:需要編碼的類型

補(bǔ)充：pandas.get_dummies 的使用及含義

get_dummies 是利用pandas實(shí)現(xiàn)one hot encode的方式

get_dummies參數(shù)如下：

pandas.get_dummies（data，prefix = None，prefix_sep ='_'，dummy_na = False，columns = None，sparse = False，drop_first = False，dtype = None ）

data ： array-like，Series或DataFrame

prefix ：string，字符串列表或字符串dict，默認(rèn)為None，

用于追加DataFrame列名的字符串。在DataFrame上調(diào)用get_dummies時(shí)，傳遞一個(gè)長度等于列數(shù)的列表。或者，前綴可以是將列名稱映射到前綴的字典。

prefix_sep ： string，默認(rèn)為'_'

如果附加前綴，分隔符/分隔符要使用?；蛘邆鬟f與前綴一樣的列表或字典。

dummy_na ： bool，默認(rèn)為False

如果忽略False NaN，則添加一列以指示NaN。

columns ：類似列表，默認(rèn)為無

要編碼的DataFrame中的列名稱。如果列是None，那么所有與列對象或類別 D型細(xì)胞將被轉(zhuǎn)換。

sparse ： bool，默認(rèn)為False

偽編碼列是否應(yīng)由SparseArray（True）或常規(guī)NumPy數(shù)組（False）支持。

drop_first ： bool，默認(rèn)為False

是否通過刪除第一級別從k分類級別獲得k-1個(gè)假人。

版本0.18.0中的新功能。

dtype： D型，默認(rèn)np.uint8

新列的數(shù)據(jù)類型。只允許一個(gè)dtype。

版本0.23.0中的新功能。

實(shí)例

函數(shù)實(shí)例

prefix自定義前綴

prefix

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

跟老齊學(xué)Python之有點(diǎn)簡約的元組
元組和列表十分類似，但是元組是不可變的.也就是說你不能修改元組。元組通過圓括號(hào)中用逗號(hào)分割的項(xiàng)目定義。元組通常用在使語句或用戶定義的函數(shù)能夠安全地采用一組值的時(shí)候，即被使用的元組的值不會(huì)改變。
2014-09-09
python 裝飾器帶參數(shù)和不帶參數(shù)步驟詳解
裝飾器是Python語言中一種特殊的語法,用于在不修改原函數(shù)代碼的情況下,為函數(shù)添加額外的功能或修改函數(shù)的行為,這篇文章主要介紹了python裝飾器帶參數(shù)和不帶參數(shù)的相關(guān)知識(shí),需要的朋友可以參考下
2024-05-05
pandas實(shí)現(xiàn)處理TB級別的數(shù)據(jù)
這篇文章主要介紹了pandas實(shí)現(xiàn)處理TB級別的數(shù)據(jù),具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
2025-04-04
python線程信號(hào)量semaphore使用解析
這篇文章主要介紹了python線程信號(hào)量semaphore使用解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-11-11
深入解析Python小白學(xué)習(xí)【操作列表】
這篇文章主要介紹了Python操作列表，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-03-03
python實(shí)現(xiàn)人機(jī)五子棋
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)人機(jī)五子棋，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2020-03-03
上手簡單,功能強(qiáng)大的Python爬蟲框架——feapder
這篇文章主要介紹了上手簡單,功能強(qiáng)大的Python爬蟲框架——feapder的使用教程，幫助大家更好的利用python進(jìn)行爬蟲，感興趣的朋友可以了解下
2021-04-04
python支持多繼承嗎
在本篇文章里小編給大家整理的是關(guān)于python支持多繼承的相關(guān)基礎(chǔ)知識(shí)點(diǎn)，需要的朋友們跟著學(xué)習(xí)參考下。
2020-06-06
Python中的二叉樹查找算法模塊使用指南
二叉樹查找算法，在開發(fā)實(shí)踐中，會(huì)經(jīng)常用到。按照慣例，對于這么一個(gè)常用的東西，Python一定會(huì)提供輪子的。是的，python就是這樣，一定會(huì)讓開發(fā)者省心，降低開發(fā)者的工作壓力。
2014-07-07
Python爬蟲簡單運(yùn)用爬取代理IP的實(shí)現(xiàn)
這篇文章主要介紹了Python爬蟲簡單運(yùn)用爬取代理IP的實(shí)現(xiàn)，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-12-12