淺談Python幾種常見(jiàn)的歸一化方法
數(shù)據(jù)歸一化是深度學(xué)習(xí)數(shù)據(jù)預(yù)處理中非常關(guān)鍵的步驟,可以起到統(tǒng)一量綱,防止小數(shù)據(jù)被吞噬的作用。
一:歸一化的概念
歸一化就是把所有數(shù)據(jù)都轉(zhuǎn)化成[0,1]或者[-1,1]之間的數(shù),其目的是為了取消各維數(shù)據(jù)之間的數(shù)量級(jí)差別,避免因?yàn)檩斎胼敵鰯?shù)據(jù)數(shù)量級(jí)差別大而造成網(wǎng)絡(luò)預(yù)測(cè)誤差過(guò)大。
二:歸一化的作用
- 為了后面數(shù)據(jù)處理的方便,歸一化可以避免一些不必要的數(shù)值問(wèn)題。
- 為了程序運(yùn)行時(shí)收斂速度更快
- 統(tǒng)一量綱。樣本數(shù)據(jù)的評(píng)價(jià)標(biāo)準(zhǔn)不一樣,需要對(duì)其量綱化,統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn),這算是應(yīng)用層面的需求。
- 避免神經(jīng)元飽和。就是說(shuō)當(dāng)神經(jīng)元的激活在接近0或者1時(shí),在這些區(qū)域,梯度幾乎為0,這樣在反向傳播過(guò)程中,局部梯度就會(huì)接近于0,這樣非常不利于網(wǎng)絡(luò)的訓(xùn)練。
- 保證輸出數(shù)據(jù)中數(shù)值小的不被吞食。
三:歸一化的類型
1:線性歸一化
線性歸一化也被稱為最小-最大規(guī)范化;離散標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,將數(shù)據(jù)值映射到[0,1]之間。用公式表示為:

差標(biāo)準(zhǔn)化保留了原來(lái)數(shù)據(jù)中存在的關(guān)系,是消除量綱和數(shù)據(jù)取值范圍影響的最簡(jiǎn)單的方法。代碼實(shí)現(xiàn)如下:
def MaxMinNormalization(x,Max,Min):
x = (x - Min) / (Max - Min);
return x適用范圍:比較適用在數(shù)值比較集中的情況
缺點(diǎn):
- 如果max和min不穩(wěn)定,很容易使得歸一化的結(jié)果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。如果遇到超過(guò)目前屬性[min,max]取值范圍的時(shí)候,會(huì)引起系統(tǒng)報(bào)錯(cuò)。需要重新確定min和max。
- 如果數(shù)值集中的某個(gè)數(shù)值很大,則規(guī)范化后各值接近于0,并且將會(huì)相差不大。(如 1,1.2,1.3,1.4,1.5,1.6,10)這組數(shù)據(jù)。
2:零-均值歸一化(Z-score標(biāo)準(zhǔn)化)
Z-score標(biāo)準(zhǔn)化也被稱為標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)的均值為0,標(biāo)準(zhǔn)差為1。其轉(zhuǎn)化公式為:

其中
為原始數(shù)據(jù)的均值,
為原始數(shù)據(jù)的標(biāo)準(zhǔn)差,是當(dāng)前用的最多的標(biāo)準(zhǔn)化公式
這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,這里的關(guān)鍵在于復(fù)合標(biāo)準(zhǔn)正態(tài)分布
代碼實(shí)現(xiàn)如下:
def Z_ScoreNormalization(x,mu,sigma):
x = (x - mu) / sigma;
return x3:小數(shù)定標(biāo)規(guī)范化
這種方法通過(guò)移動(dòng)屬性值的小數(shù)數(shù)位,將屬性值映射到[-1,1]之間,移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。轉(zhuǎn)換公式為:

4:非線性歸一化
這個(gè)方法包括log,指數(shù),正切
適用范圍:經(jīng)常用在數(shù)據(jù)分析比較大的場(chǎng)景,有些數(shù)值很大,有些很小,將原始值進(jìn)行映射。
四:批歸一化(BatchNormalization)
1:引入
在以往的神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),僅僅只對(duì)輸入層數(shù)據(jù)進(jìn)行歸一化處理,卻沒(méi)有在中間層進(jìn)行歸一化處理。雖然我們對(duì)輸入數(shù)據(jù)進(jìn)行了歸一化處理,但是輸入數(shù)據(jù)經(jīng)過(guò)了
這樣的矩陣乘法之后,其數(shù)據(jù)分布很可能發(fā)生很大改變,并且隨著網(wǎng)絡(luò)的層數(shù)不斷加深。數(shù)據(jù)分布的變化將越來(lái)越大。因此這種在神經(jīng)網(wǎng)絡(luò)中間層進(jìn)行的歸一化處理,使得訓(xùn)練效果更好的方法就被稱為批歸一化(BN)
2:BN算法的優(yōu)點(diǎn)
- 減少了人為選擇參數(shù)
- 減少了對(duì)學(xué)習(xí)率的要求,我們可以使用初始狀態(tài)下很大的學(xué)習(xí)率或者當(dāng)使用較小的學(xué)習(xí)率時(shí),算法也能夠快速訓(xùn)練收斂。
- 破換了原來(lái)的數(shù)據(jù)分布,一定程度上緩解了過(guò)擬合(防止每批訓(xùn)練中某一個(gè)樣本經(jīng)常被挑選到)
- 減少梯度消失,加快收斂速度,提高訓(xùn)練精度。
3:批歸一化(BN)算法流程
輸入:上一層輸出結(jié)果X={x1,x2,.....xm},學(xué)習(xí)參數(shù)
,
算法流程:
1)計(jì)算上一層輸出數(shù)據(jù)的均值:

其中,m是此次訓(xùn)練樣本batch的大小。
2)計(jì)算上一層輸出數(shù)據(jù)的標(biāo)準(zhǔn)差:

3)歸一化處理得到

公式中的
是為了避免分母為0而加進(jìn)去接近于0的很小的值。
4)重構(gòu),對(duì)經(jīng)過(guò)上面歸一化處理得到的數(shù)據(jù)進(jìn)行重構(gòu),得到:

其中
,
為可學(xué)習(xí)的參數(shù)。
到此這篇關(guān)于淺談一下幾種常見(jiàn)的歸一化方法的文章就介紹到這了,更多相關(guān)常見(jiàn)的歸一化方法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python文件絕對(duì)路徑寫(xiě)法介紹(windows)
今天小編就為大家分享一篇python文件絕對(duì)路徑寫(xiě)法介紹(windows),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12
使用Python實(shí)現(xiàn)文本情感分析預(yù)處理的詳細(xì)教程
在自然語(yǔ)言處理(NLP)領(lǐng)域,文本情感分析是一項(xiàng)重要任務(wù),它旨在通過(guò)計(jì)算機(jī)技術(shù)識(shí)別和提取文本中的情感傾向(如正面、負(fù)面或中性),為了實(shí)現(xiàn)準(zhǔn)確的情感分析,預(yù)處理步驟至關(guān)重要,所以本文給大家介紹了使用Python實(shí)現(xiàn)文本情感分析預(yù)處理的詳細(xì)教程,需要的朋友可以參考下2025-04-04
python pandas最常用透視表實(shí)現(xiàn)應(yīng)用案例
透視表是一種可以對(duì)數(shù)據(jù)動(dòng)態(tài)排布并且分類匯總的表格格式,它在數(shù)據(jù)分析中有著重要的作用和地位,在本文中,我將為你介紹python中如何使用pandas包實(shí)現(xiàn)透視表的功能,以及一些常見(jiàn)的應(yīng)用案例2024-01-01
Python中pip安裝非PyPI官網(wǎng)第三方庫(kù)的方法
這篇文章主要介紹了Python中pip安裝非PyPI官網(wǎng)第三方庫(kù)的方法,pip最新的版本(1.5以上的版本), 出于安全的考 慮,pip不允許安裝非PyPI的URL,本文就給出兩種解決方法,需要的朋友可以參考下2015-06-06
django 多對(duì)多表的創(chuàng)建和插入代碼實(shí)現(xiàn)
這篇文章主要介紹了django-多對(duì)多表的創(chuàng)建和插入代碼實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-09-09

