pandas中的DataFrame數(shù)據(jù)遍歷解讀
pandas DataFrame數(shù)據(jù)遍歷
讀取csv內(nèi)容,格式與數(shù)據(jù)類型如下
data = pd.read_csv('save\LH8888.csv')
print(type(data))
print(data)
輸出結(jié)果如下:

按行遍歷數(shù)據(jù):iterrows
獲取行名:名字、年齡、身高、體重
for i, line in data.iterrows():
print(i)
print(line)
print(line['date'])
輸出結(jié)果如下:
i:是數(shù)據(jù)的索引,表示第幾行數(shù)據(jù)line:是每一行的具體數(shù)據(jù)line[‘date’]:通過(guò)字典的方式,能夠讀取數(shù)據(jù)

按行遍歷數(shù)據(jù):itertuples
for line in data.itertuples():
print(line)
輸出結(jié)果如下:

訪問(wèn)date方式如下:
for line in data.itertuples():
print(line)
print(getattr(line, 'date'))
print(line[1])
輸出結(jié)果如下:

按列遍歷數(shù)據(jù):iteritems
for i, index in data.iteritems():
print(index)
輸出結(jié)果如下,使用方式同iterrows。

讀取和修改某一個(gè)數(shù)據(jù)

例如:我們想要讀取 行索引為:1,列索引為:volume的值 27,代碼如下:
iloc:需要輸入索引值,索引從0開始loc:需要輸入對(duì)應(yīng)的行名和列名
print(data.iloc[1, 5]) print(data.loc[1, 'volume'])
例如:我們想要將 行索引為:1,列索引為:volume的值 27 修改為10,代碼如下:
data.iloc[1, 5] = 10 print(data.loc[1, 'volume']) print(data)
輸出結(jié)果如下:

遍歷dataframe中每一個(gè)數(shù)據(jù)
for i in range(data.shape[0]):
for j in range(data.shape[1]):
print(data.iloc[i, j])
輸出結(jié)果如下,按行依次打印:

dataframe遍歷效率對(duì)比
構(gòu)建數(shù)據(jù)
import pandas as pd
import numpy as np
# 生成樣例數(shù)據(jù)
def gen_sample():
? ? aaa = np.random.uniform(1,1000,3000)
? ? bbb = np.random.uniform(1,1000,3000)
? ? ccc = np.random.uniform(1,1000,3000)
? ? ddd = np.random.uniform(1,1000,3000)
? ? return pd.DataFrame({'aaa':aaa,'bbb':bbb, 'ccc': ccc, 'ddd': ddd})9種遍歷方法
# for + iloc 定位
def method0_sum(DF):
for i in range(len(DF)):
a = DF.iloc[i,0] + DF.iloc[i,1]
# for + iat 定位
def method1_sum(DF):
for i in range(len(DF)):
a = DF.iat[i,0] + DF.iat[i,1]
# pandas.DataFrame.iterrows() 迭代器
def method2_sum(DF):
for index, rows in DF.iterrows():
a = rows['aaa'] + rows['bbb']
# pandas.DataFrame.apply 迭代
def method3_sum(DF):
a = DF.apply(lambda x: x.aaa + x.bbb, axis=1)
# pandas.DataFrame.apply 迭代
def method4_sum(DF):
a = DF[['aaa','bbb']].apply(lambda x: x.aaa + x.bbb, axis=1)
# 列表
def method5_sum(DF):
a = [ a+b for a,b in zip(DF['aaa'],DF['bbb']) ]
# pandas
def method6_sum(DF):
a = DF['aaa'] + DF['bbb']
# numpy
def method7_sum(DF):
a = DF['aaa'].values + DF['bbb'].values
# for + itertuples
def method8_sum(DF):
for row in DF.itertuples():
a = getattr(row, 'aaa') + getattr(row, 'bbb')
效率對(duì)比
df = gen_sample()
print('for + iloc 定位:')
%timeit method0_sum(df)
df = gen_sample()
print('for + iat 定位:')
%timeit method1_sum(df)
df = gen_sample()
print('apply 迭代:')
%timeit method3_sum(df)
df = gen_sample()
print('apply 迭代 + 兩列:')
%timeit method4_sum(df)
df = gen_sample()
print('列表:')
%timeit method5_sum(df)
df = gen_sample()
print('pandas 數(shù)組操作:')
%timeit method6_sum(df)
df = gen_sample()
print('numpy 數(shù)組操作:')
%timeit method7_sum(df)
df = gen_sample()
print('for itertuples')
%timeit method8_sum(df)
df = gen_sample()
print('for iteritems')
%timeit method9_sum(df)
df = gen_sample()
print('for iterrows:')
%timeit method2_sum(df)
結(jié)果:
for + iloc 定位:
225 ms ± 9.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
for + iat 定位:
201 ms ± 6.37 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代:
88.3 ms ± 2.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代 + 兩列:
91.2 ms ± 5.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
列表:
1.12 ms ± 54.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
pandas 數(shù)組操作:
262 µs ± 9.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
numpy 數(shù)組操作:
14.4 µs ± 383 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
for itertuples
6.4 ms ± 265 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
for iterrows:
330 ms ± 22.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
說(shuō)下結(jié)論
numpy數(shù)組 > iteritems > pandas數(shù)組 > 列表 > itertuples > apply > iat > iloc > iterrows
itertuples > iterrows ;快50倍
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- Python?pandas按行、按列遍歷DataFrame的幾種方式
- Python數(shù)據(jù)分析之?Pandas?Dataframe條件篩選遍歷詳情
- pandas按行按列遍歷Dataframe的幾種方式
- pandas中遍歷dataframe的每一個(gè)元素的實(shí)現(xiàn)
- 在pandas中遍歷DataFrame行的實(shí)現(xiàn)方法
- Pandas DataFrame中的tuple元素遍歷的實(shí)現(xiàn)
- python中使用iterrows()對(duì)dataframe進(jìn)行遍歷的實(shí)例
- 對(duì)Python中DataFrame按照行遍歷的方法
- 如何利用itertuples對(duì)DataFrame進(jìn)行遍歷
相關(guān)文章
Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較
這篇文章主要介紹了Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較,需要的朋友可以參考下2020-02-02
如何利用Python實(shí)現(xiàn)給Excel表格截圖
這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)給Excel表格截圖功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2025-02-02
python數(shù)據(jù)可視化之初探?Seaborn
Seaborn?是一個(gè)基于?Matplotlib?的?Python?數(shù)據(jù)可視化庫(kù),它提供了更高級(jí)別的接口,使得創(chuàng)建美觀的統(tǒng)計(jì)圖形變得非常簡(jiǎn)單,在這篇文章中,我們將討論?Seaborn?的基礎(chǔ)使用方法,包括如何創(chuàng)建各種常見的統(tǒng)計(jì)圖形2023-07-07
python虛擬環(huán)境virualenv的安裝與使用
virtualenv 是一個(gè)創(chuàng)建隔絕的Python環(huán)境的工具。virtualenv創(chuàng)建一個(gè)包含所有必要的可執(zhí)行文件的文件夾,用來(lái)使用Python工程所需的包。下面這篇文章就給大家介紹了python虛擬環(huán)境virualenv的安裝與使用,有需要的朋友們可以參考借鑒,下面來(lái)一起看看吧。2016-12-12
使用python實(shí)現(xiàn)strcmp函數(shù)功能示例
這篇文章主要介紹了使用python實(shí)現(xiàn)strcmp函數(shù)功能的示例,需要的朋友可以參考下2014-03-03
詳解利用python識(shí)別圖片中的條碼(pyzbar)及條碼圖片矯正和增強(qiáng)
這篇文章主要介紹了詳解利用python識(shí)別圖片中的條碼(pyzbar)及條碼圖片矯正和增強(qiáng),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11

