Python提高運(yùn)行速度工具之Pandarallel的使用教程

更新時(shí)間：2022年09月27日 11:37:12 作者：我愛(ài)Python數(shù)據(jù)挖掘

為了提高運(yùn)行速度，我們一般會(huì)采用多進(jìn)程的方式。而常見(jiàn)的方案對(duì)于普通python玩家來(lái)說(shuō)都不是特別友好，怎樣才能算作一個(gè)友好的并行處理方案？本文就來(lái)和大家講講pandarallel的使用

1.準(zhǔn)備

開(kāi)始之前，你要確保Python和pip已經(jīng)成功安裝在電腦上

pip install pandarallel

2.使用 Pandarallel

使用前，需要對(duì)Pandarallel進(jìn)行初始化：

from pandarallel import pandarallel
pandarallel.initialize()

這樣才能調(diào)用并行計(jì)算的API，不過(guò) initialize 中有一個(gè)重要參數(shù)需要說(shuō)明，那就是 nb_workers ，它將指定并行計(jì)算的Worker數(shù)，如果沒(méi)有設(shè)置，所有CPU的核都會(huì)用上。

Pandarallel一共支持8種Pandas操作，下面是一個(gè)apply方法的例子。

import pandas as pd
import time
import math
import numpy as np
from pandarallel import pandarallel

# 初始化
pandarallel.initialize()
df_size = int(5e6)
df = pd.DataFrame(dict(a=np.random.randint(1, 8, df_size),
                       b=np.random.rand(df_size)))
def func(x):
    return math.sin(x.a**2) + math.sin(x.b**2)

# 正常處理
res = df.apply(func, axis=1)

# 并行處理
res_parallel = df.parallel_apply(func, axis=1)

# 查看結(jié)果是否相同
res.equals(res_parallel)

其他方法使用上也是類(lèi)似的，在原始的函數(shù)名稱(chēng)前加上 parallel_，比如 DataFrame.groupby.apply：

import pandas as pd
import time
import math
import numpy as np
from pandarallel import pandarallel

# 初始化
pandarallel.initialize()
df_size = int(3e7)
df = pd.DataFrame(dict(a=np.random.randint(1, 1000, df_size),
                       b=np.random.rand(df_size)))
def func(df):
    dum = 0
    for item in df.b:
        dum += math.log10(math.sqrt(math.exp(item**2)))
        
    return dum / len(df.b)

# 正常處理
res = df.groupby("a").apply(func)
# 并行處理
res_parallel = df.groupby("a").parallel_apply(func)
res.equals(res_parallel)

又比如 DataFrame.groupby.rolling.apply：

import pandas as pd
import time
import math
import numpy as np
from pandarallel import pandarallel

# 初始化
pandarallel.initialize()
df_size = int(1e6)
df = pd.DataFrame(dict(a=np.random.randint(1, 300, df_size),
                       b=np.random.rand(df_size)))
def func(x):
    return x.iloc[0] + x.iloc[1] ** 2 + x.iloc[2] ** 3 + x.iloc[3] ** 4

# 正常處理
res = df.groupby('a').b.rolling(4).apply(func, raw=False)
# 并行處理
res_parallel = df.groupby('a').b.rolling(4).parallel_apply(func, raw=False)
res.equals(res_parallel)

案例都是類(lèi)似的，這里就直接列出表格，不浪費(fèi)大家寶貴的時(shí)間去閱讀一些重復(fù)的例子了:

3.注意事項(xiàng)

1. 我有 8 個(gè) CPU，但 parallel_apply 只能加快大約4倍的計(jì)算速度。為什么？

答：正如我前面所言，Python中每個(gè)進(jìn)程占用一個(gè)核，Pandarallel 最多只能加快到你所擁有的核心的總數(shù)，一個(gè) 4 核的超線程 CPU 將向操作系統(tǒng)顯示 8 個(gè) CPU，但實(shí)際上只有 4 個(gè)核心，因此最多加快4倍。

2. 并行化是有成本的（實(shí)例化新進(jìn)程，通過(guò)共享內(nèi)存發(fā)送數(shù)據(jù)，…），所以只有當(dāng)并行化的計(jì)算量足夠大時(shí)，并行化才是有意義的。對(duì)于很少量的數(shù)據(jù)，使用 Pandarallel 并不總是值得的。

到此這篇關(guān)于Python提高運(yùn)行速度工具之Pandarallel的使用教程的文章就介紹到這了,更多相關(guān)Python Pandarallel內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: