pytorch DataLoader的num_workers參數(shù)與設(shè)置大小詳解
Q:在給Dataloader設(shè)置worker數(shù)量(num_worker)時(shí),到底設(shè)置多少合適?這個(gè)worker到底怎么工作的?
train_loader = torch.utils.data.DataLoader(train_dataset,
batch_size=batch_size, shuffle=True,
num_workers=4)
參數(shù)詳解:
1、每次dataloader加載數(shù)據(jù)時(shí):dataloader一次性創(chuàng)建num_worker個(gè)worker,(也可以說(shuō)dataloader一次性創(chuàng)建num_worker個(gè)工作進(jìn)程,worker也是普通的工作進(jìn)程),并用batch_sampler將指定batch分配給指定worker,worker將它負(fù)責(zé)的batch加載進(jìn)RAM。
然后,dataloader從RAM中找本輪迭代要用的batch,如果找到了,就使用。如果沒(méi)找到,就要num_worker個(gè)worker繼續(xù)加載batch到內(nèi)存,直到dataloader在RAM中找到目標(biāo)batch。一般情況下都是能找到的,因?yàn)閎atch_sampler指定batch時(shí)當(dāng)然優(yōu)先指定本輪要用的batch。
2、num_worker設(shè)置得大,好處是尋batch速度快,因?yàn)橄乱惠喌腷atch很可能在上一輪/上上一輪...迭代時(shí)已經(jīng)加載好了。壞處是內(nèi)存開(kāi)銷大,也加重了CPU負(fù)擔(dān)(worker加載數(shù)據(jù)到RAM的進(jìn)程是CPU復(fù)制的嘛)。num_workers的經(jīng)驗(yàn)設(shè)置值是自己電腦/服務(wù)器的CPU核心數(shù),如果CPU很強(qiáng)、RAM也很充足,就可以設(shè)置得更大些。
3、如果num_worker設(shè)為0,意味著每一輪迭代時(shí),dataloader不再有自主加載數(shù)據(jù)到RAM這一步驟(因?yàn)闆](méi)有worker了),而是在RAM中找batch,找不到時(shí)再加載相應(yīng)的batch。缺點(diǎn)當(dāng)然是速度更慢。
設(shè)置大小建議:
1、Dataloader的num_worker設(shè)置多少才合適,這個(gè)問(wèn)題是很難有一個(gè)推薦的值。有以下幾個(gè)建議:
2、num_workers=0表示只有主進(jìn)程去加載batch數(shù)據(jù),這個(gè)可能會(huì)是一個(gè)瓶頸。
3、num_workers = 1表示只有一個(gè)worker進(jìn)程用來(lái)加載batch數(shù)據(jù),而主進(jìn)程是不參與數(shù)據(jù)加載的。這樣速度也會(huì)很慢。
num_workers>0 表示只有指定數(shù)量的worker進(jìn)程去加載數(shù)據(jù),主進(jìn)程不參與。增加num_works也同時(shí)會(huì)增加cpu內(nèi)存的消耗。所以num_workers的值依賴于 batch size和機(jī)器性能。
4、一般開(kāi)始是將num_workers設(shè)置為等于計(jì)算機(jī)上的CPU數(shù)量
5、最好的辦法是緩慢增加num_workers,直到訓(xùn)練速度不再提高,就停止增加num_workers的值。
補(bǔ)充:pytorch中Dataloader()中的num_workers設(shè)置問(wèn)題
如果num_workers的值大于0,要在運(yùn)行的部分放進(jìn)__main__()函數(shù)里,才不會(huì)有錯(cuò):
import numpy as np
import torch
from torch.autograd import Variable
import torch.nn.functional
import matplotlib.pyplot as plt
import torch.utils.data as Data
BATCH_SIZE=5
x=torch.linspace(1,10,10)
y=torch.linspace(10,1,10)
torch_dataset=Data.TensorDataset(x,y)
loader=Data.DataLoader(
dataset=torch_dataset,
batch_size=BATCH_SIZE,
shuffle=True,
num_workers=2,
)
def main():
for epoch in range(3):
for step,(batch_x,batch_y) in enumerate(loader):
# training....
print('Epoch:',epoch,'| step:',step,'| batch x:',batch_x.numpy(),
'| batch y:',batch_y.numpy())
if __name__=="__main__":
main()
'''
# 下面這樣直接運(yùn)行會(huì)報(bào)錯(cuò):
for epoch in range(3):
for step,(batch_x,batch_y) in enumerate(loader):
# training....
print('Epoch:',epoch,'| step:',step,'| batch x:',batch_x.numpy(),
'| batch y:',batch_y.numpy()
'''
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
使用Python分析文本數(shù)據(jù)的詞頻并詞云圖可視化
這篇文章主要給大家介紹了關(guān)于如何使用Python分析文本數(shù)據(jù)的詞頻并詞云圖可視化,文章中有詳細(xì)的圖文介紹和代碼示例,對(duì)我們的學(xué)習(xí)或工作有一定的幫助,需要的朋友可以參考下2023-09-09
使用Python制作一個(gè)簡(jiǎn)易的遠(yuǎn)控終端
這篇文章主要為大家詳細(xì)介紹了如何使用Python語(yǔ)言制作一個(gè)簡(jiǎn)易的遠(yuǎn)控終端,文中的示例代碼講解詳細(xì),具有一定的學(xué)習(xí)價(jià)值,感興趣的可以了解一下2023-04-04
scrapy中如何設(shè)置應(yīng)用cookies的方法(3種)
這篇文章主要介紹了scrapy中如何設(shè)置應(yīng)用cookies的方法(3種),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09
python數(shù)學(xué)建模之三大模型與十大常用算法詳情
這篇文章主要介紹了python數(shù)學(xué)建模之三大模型與十大常用算法詳情,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,感想取得小伙伴可以參考一下2022-07-07
關(guān)于探究python中sys.argv時(shí)遇到的問(wèn)題詳解
這篇文章主要給大家介紹了python里sys.argv時(shí)遇到問(wèn)題的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-02-02
Python數(shù)據(jù)可視化:箱線圖多種庫(kù)畫法
這篇文章主要介紹了Python數(shù)據(jù)可視化箱線圖多種庫(kù)畫法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-11-11
Python對(duì)稱的二叉樹(shù)多種思路實(shí)現(xiàn)方法
這篇文章主要介紹了Python對(duì)稱的二叉樹(shù)多種思路實(shí)現(xiàn)方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02

