詳解model.train()和model.eval()兩種模式的原理與用法

更新時(shí)間：2023年03月23日 17:01:13 作者：想變厲害的大白菜

這篇文章主要介紹了詳解model.train()和model.eval()兩種模式的原理與用法,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策,那么看完這篇文章一定會(huì)對(duì)你有所幫助

一、兩種模式

pytorch可以給我們提供兩種方式來切換訓(xùn)練和評(píng)估(推斷)的模式，分別是：model.train() 和 model.eval()。

一般用法是：在訓(xùn)練開始之前寫上 model.trian() ，在測試時(shí)寫上 model.eval() 。

二、功能

1. model.train()

在使用 pytorch 構(gòu)建神經(jīng)網(wǎng)絡(luò)的時(shí)候，訓(xùn)練過程中會(huì)在程序上方添加一句model.train()，作用是啟用 batch normalization 和 dropout 。

如果模型中有BN層（Batch Normalization）和 Dropout ，需要在訓(xùn)練時(shí) 添加 model.train()。

model.train() 是保證 BN 層能夠用到每一批數(shù)據(jù) 的均值和方差。對(duì)于 Dropout，model.train() 是隨機(jī)取一部分網(wǎng)絡(luò)連接來訓(xùn)練更新參數(shù)。

2. model.eval()

model.eval()的作用是不啟用 Batch Normalization 和 Dropout。

如果模型中有 BN 層（Batch Normalization）和 Dropout，在測試時(shí) 添加 model.eval()。

model.eval() 是保證 BN 層能夠用全部訓(xùn)練數(shù)據(jù) 的均值和方差，即測試過程中要保證 BN 層的均值和方差不變。對(duì)于 Dropout，model.eval() 是利用到了所有網(wǎng)絡(luò)連接，即不進(jìn)行隨機(jī)舍棄神經(jīng)元。

為什么測試時(shí)要用 model.eval() ？

訓(xùn)練完 train 樣本后，生成的模型 model 要用來測試樣本了。在 model(test) 之前，需要加上model.eval()，否則的話，有輸入數(shù)據(jù)，即使不訓(xùn)練，它也會(huì)改變權(quán)值。這是 model 中含有 BN 層和 Dropout 所帶來的的性質(zhì)。

eval() 時(shí)，pytorch 會(huì)自動(dòng)把 BN 和 DropOut 固定住，不會(huì)取平均，而是用訓(xùn)練好的值。
不然的話，一旦 test 的 batch_size 過小，很容易就會(huì)被 BN 層導(dǎo)致生成圖片顏色失真極大。
eval() 在非訓(xùn)練的時(shí)候是需要加的，沒有這句代碼，一些網(wǎng)絡(luò)層的值會(huì)發(fā)生變動(dòng)，不會(huì)固定，你神經(jīng)網(wǎng)絡(luò)每一次生成的結(jié)果也是不固定的，生成質(zhì)量可能好也可能不好。

也就是說，測試過程中使用model.eval()，這時(shí)神經(jīng)網(wǎng)絡(luò)會(huì) 沿用 batch normalization 的值，而并不使用 dropout。

3. 總結(jié)與對(duì)比

如果模型中有 BN 層(Batch Normalization）和 Dropout，需要在訓(xùn)練時(shí)添加 model.train()，在測試時(shí)添加 model.eval()。

其中 model.train() 是保證 BN 層用每一批數(shù)據(jù)的均值和方差，而 model.eval() 是保證 BN 用全部訓(xùn)練數(shù)據(jù)的均值和方差；

而對(duì)于 Dropout，model.train() 是隨機(jī)取一部分網(wǎng)絡(luò)連接來訓(xùn)練更新參數(shù)，而 model.eval() 是利用到了所有網(wǎng)絡(luò)連接。

三、Dropout 簡介

dropout 常常用于抑制過擬合。

設(shè)置Dropout時(shí)，torch.nn.Dropout(0.5)，這里的 0.5 是指該層（layer）的神經(jīng)元在每次迭代訓(xùn)練時(shí)會(huì)隨機(jī)有 50% 的可能性被丟棄（失活），不參與訓(xùn)練。也就是將上一層數(shù)據(jù)減少一半傳播。

到此這篇關(guān)于詳解model.train()和model.eval()兩種模式的原理與用法的文章就介紹到這了,更多相關(guān)model.train()和model.eval()原理用法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: