pd.DataFrame中的幾種索引變換的實(shí)現(xiàn)

更新時(shí)間：2022年06月16日 11:11:49 作者：小數(shù)志

本文主要介紹了pd.DataFrame中的幾種索引變換的實(shí)現(xiàn)，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

導(dǎo)讀：pandas中最常用的數(shù)據(jù)結(jié)構(gòu)是DataFrame，而DataFrame相較于嵌套list或者二維numpy數(shù)組更好用的原因之一在于其提供了行索引和列名。本文主要介紹行索引的幾種變換方式，包括rename與reindex、index.map、set_index與reset_index、stack與unstack等。

慣例開局一張圖

01 索引簡介與樣例數(shù)據(jù)

Series和DataFrame是pandas中的主要數(shù)據(jù)結(jié)構(gòu)類型（老版本中曾有三維數(shù)據(jù)結(jié)構(gòu)Panel，是DataFrame的容器，后被取消），而二者相較于傳統(tǒng)的數(shù)組或list而言，最大的便利之處在于其提供了索引，DataFrame中還有列標(biāo)簽名，這些都使得在操作一行或一列數(shù)據(jù)中非常方便，包括在數(shù)據(jù)訪問、數(shù)據(jù)處理轉(zhuǎn)換等。關(guān)于索引的詳細(xì)介紹可參考前文：python數(shù)據(jù)科學(xué)系列：pandas入門詳細(xì)教程。

這里，為了便于后文舉例解釋，給出基本的DataFrame樣例數(shù)據(jù)如下：

后文將以此作為操作對象，針對索引的幾種常用變換進(jìn)行介紹。

注：這里的索引應(yīng)廣義的理解為既包擴(kuò)行索引，也包括列標(biāo)簽。

02 reindex和rename

學(xué)習(xí)pandas之初，reindex和rename容易使人混淆的一組接口，就其具體功能來看：

reindex執(zhí)行的是索引重組操作，接收一組標(biāo)簽序列作為新索引，既適用于行索引也適用于列標(biāo)簽名，重組之后索引數(shù)量可能發(fā)生變化，索引名為傳入標(biāo)簽序列
rename執(zhí)行的是索引重命名操作，接收一個(gè)字典映射或一個(gè)變換函數(shù)，也均適用于行列索引，重命名之后索引數(shù)量不發(fā)生改變，索引名可能發(fā)生變化

另外二者執(zhí)行功能和接收參數(shù)的套路也是很為相近的，均支持兩種變換方式：

一種是變換內(nèi)容+axis指定作用軸（可選0/1或index/columns）；
另一種是直接用index/columns關(guān)鍵字指定作用軸

具體而言，reindex執(zhí)行索引重組操作，以新接收的一組標(biāo)簽序列作為索引，當(dāng)原DataFrame中存在該索引時(shí)則提取相應(yīng)行或列，否則賦值為空或填充指定值。對于前面介紹的示例數(shù)據(jù)df，以重組行索引為例，兩種可選方式為：

注意到原df中行索引為[1, 3, 5]，而新重組的目標(biāo)索引為[1, 2, 3]，其中[1, 3]為已有索引直接提取，[2, 4]在原df中不存在，所以填充空值；同時(shí)，原df中索引[5]由于不在指定索引中，所以遭舍棄。進(jìn)一步地，由于重組后可能存在空值，reindex提供了填充空值的可選參數(shù)fill_value和method，二者用法與fillna方法一致，前者用于指定固定值填充，后者用于指定填充策略，例如：

rename用法套路與reindex很為相近，但執(zhí)行功能完全不同，主要用于執(zhí)行索引重命名操作，接收一個(gè)字典或一個(gè)重命名規(guī)則的函數(shù)類型，示例如下：

03 index.map

針對DataFrame中的數(shù)據(jù)，pandas中提供了一對功能有些相近的接口：map和apply，以及applymap，其中map僅可用于DataFrame中的一列（也即即Series），可接收字典或函數(shù)完成單列數(shù)據(jù)的變換；apply既可用于一列（即Series）也可用于多列（即DataFrame），但僅可接收函數(shù)作為參數(shù)，當(dāng)作用于Series時(shí)對每個(gè)元素進(jìn)行變換，作用于DataFrame時(shí)對其中的每一行或每一列進(jìn)行變換；而applymap則僅可作用于DataFrame，且作用對象是對DataFrame中的每個(gè)元素進(jìn)行變換。也就是說，三者的最大不同在于作用范圍以及變換方式的不同。

實(shí)際上，apply和map還有一個(gè)細(xì)微區(qū)別在于：同樣是可作用于單列對象，apply適用于索引這種特殊的單列，而map則不適用。所以，對索引執(zhí)行變換的另一種可選方式是用map函數(shù)，其具體操作方式與DataFrame常規(guī)map操作一致，接收一個(gè)函數(shù)作為參數(shù)即可：

04 set_index與reset_index

set_index和reset_index是一對互逆的操作，其中前者用于置位索引——將DataFrame中某一列設(shè)置為索引，同時(shí)丟棄原索引；而reset_index用于復(fù)位索引——將索引加入到數(shù)據(jù)中作為一列或直接丟棄，可選drop參數(shù)。二者是非常常用的一組操作，例如在執(zhí)行g(shù)roupby操作后一般會得到一個(gè)series類型，此時(shí)增加一個(gè)reset_index操作即可實(shí)現(xiàn)series轉(zhuǎn)換為DataFrame。當(dāng)然轉(zhuǎn)換的操作不止這一種。

05 stack與unstack

這也是一對互逆的操作，其中stack原義表示堆疊，實(shí)現(xiàn)將所有列標(biāo)簽堆疊到行索引中；unstack即解堆，用于將復(fù)合行索引中的一個(gè)維度索引平鋪到列標(biāo)簽中。實(shí)際上，二者的操作即是SQL中經(jīng)典的行轉(zhuǎn)列與列轉(zhuǎn)行，也即在長表與寬表之間轉(zhuǎn)換。