pandas中提取DataFrame某些列的一些方法

更新時間：2022年06月06日 10:18:45 作者：寧萌Julie

dataframe是pandas包的重要對象,熟練掌握dataframe的基本操作是很有必要的,下面這篇文章主要給大家介紹了關(guān)于pandas中提取DataFrame某些列的一些方法,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下

前言
方法一：df[columns]
方法二：df.loc[]：用 label （行名或列名）做索引。
方法三：df.iloc[]: i 表示 integer，用 integer location（行或列的整數(shù)位置，從0開始）做索引。
補(bǔ)充：提取所有列名中包含“線索”、“瀏覽”字段的列
參考：
總結(jié)

前言

在處理表格型數(shù)據(jù)時，一行數(shù)據(jù)是一個 sample，列就是待提取的特征。怎么選取其中的一些列呢？本文分享一些方法。

使用如下的數(shù)據(jù)作為例子：

import pandas as pd

data = pd.DataFrame({'Name':['Anna', 'Betty', 'Richard', 'Philip','Paul'],
        'course1':[85,83,90,84,85],
        'course2':[90,85,83,88,84],
        'course3':[82,86,81,91,85],
        'fruit':['apple','banana','apple','orange','peach'],
        'sport':['basketball', 'volleyball', 'football', 'basketball','baseball']},
         index=[1,2,3,4,5])
  
df = pd.DataFrame(data)

df

	Name	course1	course2	course3	fruit	sport
1	Anna	85	90	82	apple	basketball
2	Betty	83	85	86	banana	volleyball
3	Richard	90	83	81	apple	football
4	Philip	84	88	91	orange	basketball
5	Paul	85	84	85	peach	baseball

方法一：df[columns]

先看最簡單的情況。輸入列名，選擇一列。例如：

df['course2']

1    90
2    85
3    83
4    88
5    84
Name: course2, dtype: int64

df[column list]：選擇列。例如：

df[['course2','fruit']]

	course2	fruit
1	90	apple
2	85	banana
3	83	apple
4	88	orange
5	84	peach

或者以 column list (list 變量)的形式導(dǎo)入到 df[ ] 中，例如：

select_cols=['course2','fruit']
df[select_cols]

	course2	fruit
1	90	apple
2	85	banana
3	83	apple
4	88	orange
5	84	peach

可以用 column list=df.columns[start:end] 的方式選擇連續(xù)列，start 和 end 均為數(shù)字，不包括 end 列。例如：

select_cols=df.columns[1:4]
df[select_cols]

	course1	course2	course3
1	85	90	82
2	83	85	86
3	90	83	81
4	84	88	91
5	85	84	85

你可能注意到，其中有 3 列的名字相近：‘course1’,‘course2’,‘course3’。怎么提取這三列呢？這里分享在Kaggle 上看到一位大神使用的 list comprehension方法。

select_cols=[c for c in df.columns if 'course' in c]
df[select_cols]

	course1	course2	course3
1	85	90	82
2	83	85	86
3	90	83	81
4	84	88	91
5	85	84	85

但是，如果你想輸入df['course1':'course3'] 來索引連續(xù)列，就會報錯。而輸入數(shù)字索引df[1:3]時，結(jié)果不再是列索引，而是行索引，如下所示：

df[1:3]

	Name	course1	course2	course3	fruit	sport
2	Betty	83	85	86	banana	volleyball
3	Richard	90	83	81	apple	football

以下兩種方法 df.loc[]和df.iloc[]就可以解決這個問題，可以明確行或列索引。還可以同時取多行和多列。

方法二：df.loc[]：用 label （行名或列名）做索引。

輸入 column_list 選擇多列 [:, column_list]，括號中第一個: 表示選擇全部行。例如：

df.loc[:,['course2','fruit']]

	course2	fruit
1	90	apple
2	85	banana
3	83	apple
4	88	orange
5	84	peach

選擇連續(xù)多列 [:,start_col: end_col]，注意：包括 end_col。例如：

df.loc[:,'course2':'fruit']

	course2	course3	fruit
1	90	82	apple
2	85	86	banana
3	83	81	apple
4	88	91	orange
5	84	85	peach

選擇多行和多列，例如：

df.loc[1:3,'course2':'fruit']

	course2	course3	fruit
1	90	82	apple
2	85	86	banana
3	83	81	apple

與 df[ ]類似，df.loc[ ]括號內(nèi)也可以輸入判斷語句，結(jié)果是對行做篩選。例如：

df.loc[df['course1']>84]
#注：輸入df[df['course1']>84]，輸出結(jié)果相同

	Name	course1	course2	course3	fruit	sport
1	Anna	85	90	82	apple	basketball
3	Richard	90	83	81	apple	football
5	Paul	85	84	85	peach	baseball

方法三：df.iloc[]: i 表示 integer，用 integer location（行或列的整數(shù)位置，從0開始）做索引。

df.iloc與df.loc用法類似，只是索引項(xiàng)不同。

df.iloc[:,[2,4]]

	course2	fruit
1	90	apple
2	85	banana
3	83	apple
4	88	orange
5	84	peach

選擇連續(xù)多列：df.iloc[:, start_ix:end_ix]，注意：不包括 end_ix。例如：

df.iloc[:,2:5]

	course2	course3	fruit
1	90	82	apple
2	85	86	banana
3	83	81	apple
4	88	91	orange
5	84	85	peach

選擇多行與多列，例如：

df.iloc[1:3,[2,4]]

	course2	fruit
2	85	banana
3	83	apple

與 df.loc[] 不同，df.iloc[] 括號內(nèi)不可以輸入判斷語句。

補(bǔ)充：提取所有列名中包含“線索”、“瀏覽”字段的列

import pandas as pd
 
path = 'F:\python_projects\python_learning\ershouche.csv'
df = pd.read_csv(open(path), index_col=0)
df = df.fillna(0)  # 填充空值后需賦值
print(df.describe())
 
columns = df.columns.values.tolist()  # 獲取列名列表，注意values，tolist的使用
col_xian = []  # 存儲包含‘線索'字段的列名
for i in columns:
    if '線索' in i:
        col_xian.append(i)
 
col_liu = [] # 存儲包含‘瀏覽'字段的列名
for i in columns:
    if '瀏覽' in i:
        col_liu.append(i)
 
df_xian = df[col_xian]  # 根據(jù)列名取列
df_liu = df[col_liu]

參考：

1.如何選取dataframe的多列-教程：https://www.geeksforgeeks.org/how-to-select-multiple-columns-in-a-pandas-dataframe/

2.用 list comprehension 選擇多列：https://www.kaggle.com/code/robikscube/ieee-fraud-detection-first-look-and-eda/notebook

3.df.loc 與 df.iloc 的比較：https://stackoverflow.com/questions/31593201/how-are-iloc-and-loc-different

總結(jié)

到此這篇關(guān)于pandas中提取DataFrame某些列的文章就介紹到這了,更多相關(guān)pandas提取DataFrame某些列內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

pandas中提取DataFrame某些列的一些方法

目錄

前言

方法一：df[columns]

方法二：df.loc[]：用 label （行名或列名）做索引。

方法三：df.iloc[]: i 表示 integer，用 integer location（行或列的整數(shù)位置，從0開始）做索引。

補(bǔ)充：提取所有列名中包含“線索”、“瀏覽”字段的列

參考：

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

pandas中提取DataFrame某些列的一些方法

目錄

前言

方法一：df[columns]

方法二：df.loc[]：用 label （行名或列名）做索引。

方法三：df.iloc[]: i 表示 integer，用 integer location（行或列的整數(shù)位置，從0開始）做索引。

補(bǔ)充：提取所有列名中包含“線索”、“瀏覽”字段的列

參考：

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

方法二：df.loc[]：用 label （行名或列名）做索引。

方法三：df.iloc[]: i 表示 integer，用 integer location（行或列的整數(shù)位置，從0開始）做索引。

補(bǔ)充：提取所有列名中包含“線索”、“瀏覽”字段的列