批標(biāo)準(zhǔn)化層 tf.keras.layers.Batchnormalization()解析
批標(biāo)準(zhǔn)化層 tf.keras.layers.Batchnormalization()
tf.keras.layers.Batchnormalization()
重要參數(shù):
training:布爾值,指示圖層應(yīng)在訓(xùn)練模式還是在推理模式下運(yùn)行。training=True:該圖層將使用當(dāng)前批輸入的均值和方差對(duì)其輸入進(jìn)行標(biāo)準(zhǔn)化。training=False:該層將使用在訓(xùn)練期間學(xué)習(xí)的移動(dòng)統(tǒng)計(jì)數(shù)據(jù)的均值和方差來(lái)標(biāo)準(zhǔn)化其輸入。
BatchNormalization 廣泛用于 Keras 內(nèi)置的許多高級(jí)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),比如 ResNet50、Inception V3 和 Xception。
BatchNormalization 層通常在卷積層或密集連接層之后使用。
批標(biāo)準(zhǔn)化的實(shí)現(xiàn)過(guò)程
- 求每一個(gè)訓(xùn)練批次數(shù)據(jù)的均值
- 求每一個(gè)訓(xùn)練批次數(shù)據(jù)的方差
- 數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化
- 訓(xùn)練參數(shù)γ,β
- 輸出y通過(guò)γ與β的線性變換得到原來(lái)的數(shù)值
在訓(xùn)練的正向傳播中,不會(huì)改變當(dāng)前輸出,只記錄下γ與β。在反向傳播的時(shí)候,根據(jù)求得的γ與β通過(guò)鏈?zhǔn)角髮?dǎo)方式,求出學(xué)習(xí)速率以至改變權(quán)值。
對(duì)于預(yù)測(cè)階段時(shí)所使用的均值和方差,其實(shí)也是來(lái)源于訓(xùn)練集。比如我們?cè)谀P陀?xùn)練時(shí)我們就記錄下每個(gè)batch下的均值和方差,待訓(xùn)練完畢后,我們求整個(gè)訓(xùn)練樣本的均值和方差期望值,作為我們進(jìn)行預(yù)測(cè)時(shí)進(jìn)行BN的的均值和方差。
批標(biāo)準(zhǔn)化的使用位置
原始論文講在CNN中一般應(yīng)作用與非線性激活函數(shù)之前,但是,實(shí)際上放在激活函數(shù)之后效果可能會(huì)更好。
# 放在非線性激活函數(shù)之前
model.add(tf.keras.layers.Conv2D(64, (3, 3)))
model.add(tf.keras.layers.BatchNormalization())
model.add(tf.keras.layers.Activation('relu'))
# 放在激活函數(shù)之后
model.add(tf.keras.layers.Conv2D(64, (3, 3), activation='relu'))
model.add(tf.keras.layers.BatchNormalization())tf.keras.layers.BatchNormalization使用細(xì)節(jié)
關(guān)于keras中的BatchNormalization使用,官方文檔說(shuō)的足夠詳細(xì)。本文的目的旨在說(shuō)明在BatchNormalization的使用過(guò)程中容易被忽略的細(xì)節(jié)。
在BatchNormalization的Arguments參數(shù)中有trainable屬性;以及在Call arguments參數(shù)中有training。兩個(gè)都是bool類(lèi)型。第一次看到有兩個(gè)參數(shù)的時(shí)候,我有點(diǎn)懵,為什么需要兩個(gè)?
后來(lái)在查閱資料后發(fā)現(xiàn)了兩者的不同作用。
1,trainable是Argument參數(shù),類(lèi)似于c++中構(gòu)造函數(shù)的參數(shù)一樣,是構(gòu)建一個(gè)BatchNormalization層時(shí)就需要傳入的,至于它的作用在下面會(huì)講到。
2,training參數(shù)時(shí)Call argument(調(diào)用參數(shù)),是運(yùn)行過(guò)程中需要傳入的,用來(lái)控制模型在那個(gè)模式(train還是interfere)下運(yùn)行。關(guān)于這個(gè)參數(shù),如果使用模型調(diào)用fit()的話,是可以不給的(官方推薦是不給),因?yàn)樵趂it()的時(shí)候,模型會(huì)自己根據(jù)相應(yīng)的階段(是train階段還是inference階段)決定training值,這是由learning——phase機(jī)制實(shí)現(xiàn)的。
重點(diǎn)
關(guān)于trainable=False:如果設(shè)置trainable=False,那么這一層的BatchNormalization層就會(huì)被凍結(jié)(freeze),它的trainable weights(可訓(xùn)練參數(shù))(就是gamma和beta)就不會(huì)被更新。
注意:freeze mode和inference mode是兩個(gè)概念。
但是,在BatchNormalization層中,如果把某一層BatchNormalization層設(shè)置為trainable=False,那么這一層BatchNormalization層將一inference mode運(yùn)行,也就是說(shuō)(meaning that it will use the moving mean and the moving variance to normalize the current batch, rather than using the mean and variance of the current batch).
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python 拷貝對(duì)象(深拷貝deepcopy與淺拷貝copy)
Python中的對(duì)象之間賦值時(shí)是按引用傳遞的,如果需要拷貝對(duì)象,需要使用標(biāo)準(zhǔn)庫(kù)中的copy模塊。2008-09-09
python2和python3應(yīng)該學(xué)哪個(gè)(python3.6與python3.7的選擇)
許多剛?cè)腴T(mén) Python 的朋友都在糾結(jié)的的問(wèn)題是:我應(yīng)該選擇學(xué)習(xí) python2 還是 python3,Python 3.7 已經(jīng)發(fā)布了,目前Python的用戶,主要使用的版本 應(yīng)該是 Python3.6 和 Python2.7 ,那么是不是該轉(zhuǎn)到 Python 3.7 呢2019-10-10
基于python實(shí)現(xiàn)上傳文件到OSS代碼實(shí)例
這篇文章主要介紹了基于python實(shí)現(xiàn)上傳文件到OSS,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05
Matlab中如何實(shí)現(xiàn)將長(zhǎng)字符串換行寫(xiě)
這篇文章主要介紹了Matlab中如何實(shí)現(xiàn)將長(zhǎng)字符串換行寫(xiě)問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-01-01
Pytorch如何指定device(cuda or cpu)
這篇文章主要介紹了Pytorch如何指定device(cuda or cpu)問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-06-06
Python語(yǔ)言異常處理測(cè)試過(guò)程解析
這篇文章主要介紹了Python語(yǔ)言異常處理測(cè)試過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-01-01

