基于CUDA out of memory的一種神奇解決方式

更新時(shí)間：2023年02月22日 09:04:03 作者：JasmineFeng

這篇文章主要介紹了基于CUDA out of memory的一種神奇解決方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

CUDA out of memory的解決

我的輸入樣本維度是(1000,12,24,72)，一開(kāi)始我是這么輸入數(shù)據(jù)的：

trainer.train(x_train, t_train, x_val, t_val)

發(fā)現(xiàn)必溢出，后來(lái)我取出其中400個(gè)樣本輸入：

trainer.train(x_train[:400], t_train[:400], x_val, t_val)

發(fā)現(xiàn)不溢出了，訓(xùn)練正常，然后我把400刪掉，但沒(méi)刪冒號(hào)：

trainer.train(x_train[:], t_train[:], x_val, t_val)

竟然也沒(méi)有溢出?。?！雖然訓(xùn)練速度降了，但是也能正常訓(xùn)練，我不是很懂原理是啥，好神奇！

但是樣本量一大起來(lái)，即使用冒號(hào)法還是可能會(huì)溢出。比方說(shuō)我后來(lái)把4000個(gè)樣本作為x/t_train：

>>>x_train.shape
(4000,12,24,72)
>>>t_train.shape
(4000,24)
>>>trainer.train(x_train[:], t_train[:], x_val, t_val)
RuntimeError:CUDA out of memory...

之所以說(shuō)“可能”會(huì)溢出，是因?yàn)榇_實(shí)是有小概率能正常訓(xùn)練的，但是大部分情況還是會(huì)out of memory…

不過(guò)這真的是一個(gè)“神奇”的方法，能從一定程度上解決CUDA out of memory 的問(wèn)題。希望大佬能解釋一下這其中的原理~謝謝！

-------------------------------------------------------------------

再附上兩個(gè)我昨天看到的兩種不同的解決方案。

一個(gè)是減少帶梯度的中間變量（即非葉子節(jié)點(diǎn)）。簡(jiǎn)言之，能一行代碼搞定的，盡量不要寫(xiě)成多行，即使寫(xiě)成多行，也要盡可能減少新變量的建立。

另一個(gè)是在eval的時(shí)候，讓所有的變量都不帶梯度。只需要添加一行代碼：

with torch.no_grad():
?? ?outputs = Net_(inputs)

在with語(yǔ)句里的所有變量requires_grad都是False。

CUDA error: out of memory問(wèn)題

本人遇到的問(wèn)題是在訓(xùn)練是正常，一到驗(yàn)證時(shí)就會(huì)出現(xiàn)cuda error: out of memory的問(wèn)題

解決思路溯尋

1.首先就是考慮減少batch_size和num_worker，對(duì)于我的情況不奏效

2.然后找到pin_memory發(fā)現(xiàn)是設(shè)置的True，改為false，仍舊不管用

3.包括把

?# Empty GPU cache
? ? ? ? if torch.cuda.is_available():
? ? ? ? ? ? torch.cuda.empty_cache()

放到報(bào)錯(cuò)位置的前后，不奏效

4.后來(lái)再聚焦問(wèn)題關(guān)鍵，是一到驗(yàn)證就會(huì)出問(wèn)題，所以專門(mén)查攻略，我初步懷疑是因?yàn)轵?yàn)證沒(méi)有參與反向傳播，梯度累積，內(nèi)存爆了，但當(dāng)時(shí)代碼中有with torch.no_grad(): ，所以并沒(méi)有發(fā)現(xiàn)關(guān)鍵，知道看到別人里面 forword是放在with torch.no_grad()后面的，所以最后

with torch.no_grad():
? ? ? ? ? ? ? ? # Forward pass
? ? ? ? ? ? ? ? loss, np_probs, hv_logits = self.forward(images, targets)

問(wèn)題解決！

總結(jié)

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

基于CUDA out of memory的一種神奇解決方式

目錄

CUDA out of memory的解決

CUDA error: out of memory問(wèn)題

解決思路溯尋

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

基于CUDA out of memory的一種神奇解決方式

目錄

CUDA out of memory的解決

CUDA error: out of memory問(wèn)題

解決思路溯尋

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕