pandas提升計算效率的一些方法匯總

更新時間：2021年05月30日 12:18:22 作者：rs_gis

理解 pandas 的函數(shù)，要對函數(shù)式編程有一定的概念和理解，下面這篇文章主要給大家介紹了關于pandas提升計算效率的相關資料，需要的朋友可以參考下

前言

Pandas是為一次性處理整個行或列的矢量化操作而設計的，循環(huán)遍歷每個單元格、行或列并不是它的設計用途。所以，在使用Pandas時，你應該考慮高度可并行化的矩陣運算。

一、避免使用for循環(huán)

盡量使用列號或者行號進行矩陣檢索，避免使用for循環(huán)。

1.1使用for循環(huán)

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()
a = read_csv(path)
for i in range(10000):
    b = a.iloc[i]
end_time = datetime.datetime.now()

print(end_time-start_time)

耗時：0:00:02.455211

1.2使用行號檢索

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

b = a.iloc[10000]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時：0:00:00.464756

二、使用for循環(huán)的條件下提高效率

2.0 如果必須使用for循環(huán)如何提高效率

我們可以做的最簡單但非常有價值的加速是使用Pandas的內(nèi)置 .iterrows() 函數(shù)。

在上一節(jié)中編寫for循環(huán)時，我們使用了 range() 函數(shù)。然而，當我們在Python中對大范圍的值進行循環(huán)時，生成器往往要快得多。

Pandas的 .iterrows() 函數(shù)在內(nèi)部實現(xiàn)了一個生成器函數(shù)，該函數(shù)將在每次迭代中生成一行Dataframe。更準確地說，.iterrows() 為DataFrame中的每一行生成(index, Series)的對（元組）。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的，但運行速度要快得多！

生成器（Generators）
生成器函數(shù)允許你聲明一個行為類似迭代器的函數(shù)，也就是說，它可以在for循環(huán)中使用。這大大簡化了代碼，并且比簡單的for循環(huán)更節(jié)省內(nèi)存。

當你想要處理一個龐大的列表時，比如10億個浮點數(shù)，問題就出現(xiàn)了。使用for循環(huán)，在內(nèi)存中創(chuàng)建了大量的內(nèi)存huge列表，并不是每個人都有無限的RAM來存儲這樣的東西！

生成器將創(chuàng)建元素時，僅在需要時將它們存儲在內(nèi)存中。一次一個。這意味著，如果必須創(chuàng)建10億個浮點數(shù)，那么只能一次將它們存儲在內(nèi)存中。Python中的range()函數(shù)使用生成器來構建列表。

也就是說，如果你想多次迭代列表并且它足夠小以適應內(nèi)存，那么使用for循環(huán)和range函數(shù)會更好。這是因為每次訪問list值時，生成器和range都會重新生成它們，而range是一個靜態(tài)列表，并且內(nèi)存中已存在整數(shù)以便快速訪問。

2.1使用range

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for data_row in range(a.shape[0]):
    b = a.iloc[data_row]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時:0:00:07.642816

2.2使用 .iterrows() 代替 range

import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for index,data_row in a.iterrows():
    b = data_row

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時：0:00:03.513161

三、使用.apply

iterrows()函數(shù)極大地提高了速度，但我們還遠遠沒有完成。請始終記住，當使用為向量操作設計的庫時，可能有一種方法可以在完全沒有for循環(huán)的情況下最高效地完成任務。

為我們提供此功能的Pandas功能是 .apply() 函數(shù)。apply()函數(shù)接受另一個函數(shù)作為輸入，并沿著DataFrame的軸（行、列等）應用它。在傳遞函數(shù)的這種情況下，lambda通?？梢苑奖愕貙⑺袃?nèi)容打包在一起。

參考鏈接

四、其他方式

博客鏈接

總結

到此這篇關于pandas提升計算效率的文章就介紹到這了,更多相關pandas計算效率內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python3中獲取文件當前絕對路徑的兩種方法
下面小編就為大家分享一篇python3中獲取文件當前絕對路徑的兩種方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-04-04
Python爬蟲爬取糗事百科段子實例分享
在本篇文章里小編給大家整理了關于Python爬蟲爬取糗事百科段子實例內(nèi)容，需要的朋友們可以參考下。
2020-07-07
使用matplotlib畫散點圖的方法
今天小編就為大家分享一篇使用matplotlib畫散點圖的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-05-05
Python 利用pandas和mysql-connector獲取Excel數(shù)據(jù)寫入到MySQL數(shù)據(jù)庫
在實際應用中,我們可能需要將Excel表格中的數(shù)據(jù)導入到MySQL數(shù)據(jù)庫中,以便于進行進一步的數(shù)據(jù)分析和處理,本文將介紹如何使用Python將Excel表格中的數(shù)據(jù)插入到MySQL數(shù)據(jù)庫中,需要的朋友可以參考下
2023-10-10
Python使用Tesseract實現(xiàn)從圖像中讀取文本
Tesseract?是一個基于計算機的系統(tǒng),用于光學字符識別?(OCR)?和其他圖像到文本處理,本文將介紹如何使用?Python?中的?Tesseract?創(chuàng)建一個可以從圖像中讀取文本的程序,需要的可以參考下
2023-11-11
使用Python腳本從文件讀取數(shù)據(jù)代碼實例
這篇文章主要介紹了使用Python腳本從文件讀取數(shù)據(jù)代碼實例,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-01-01
Python趣味實戰(zhàn)之手把手教你實現(xiàn)舉牌小人生成器
前幾天寫了一個嬰兒級別的爬蟲圖文教程,大家很喜歡.恰好周末看到有人咨詢這個 “舉牌小人” 怎么做？基于此,我想借此為大家再寫一篇 “爬蟲應用” 的文章,教你制作一個好玩兒的 “舉牌小人” ,需要的朋友可以參考下
2021-06-06
在Python中操作字符串之rstrip()方法的使用
這篇文章主要介紹了在Python中操作字符串之rstrip()方法的使用,是Python入門中的基礎知識,需要的朋友可以參考下
2015-05-05
python爬蟲如何解決圖片驗證碼
這篇文章主要介紹了python爬蟲如何解決圖片驗證碼，幫助大家更好的理解和使用python，感興趣的朋友可以了解下
2021-02-02
解決使用pip安裝報錯:Microsoft?Visual?C++?14.0?is?required.
對于程序員來說,經(jīng)常pip安裝自己所需要的包,大部分的包基本都能安裝,但是總會遇到包安裝不了的問題,下面這篇文章主要給大家介紹了關于如何解決使用pip安裝報錯:Microsoft?Visual?C++?14.0?is?required.的相關資料,需要的朋友可以參考下
2022-09-09