javascript 正則表達(dá)式分組、斷言詳解
javascript 正則表達(dá)式分組、斷言詳解
提示:閱讀本文需要有一定的正則表達(dá)式基礎(chǔ)。
正則表達(dá)式中的斷言,作為高級應(yīng)用出現(xiàn),倒不是因?yàn)樗卸嚯y,而是概念比較抽象,不容易理解而已,今天就讓小菜通俗的講解一下。
如果不用斷言,以往用過的那些表達(dá)式,僅僅能獲取到有規(guī)律的字符串,而不能獲取無規(guī)律的字符串。
舉個(gè)例子,比如html源碼中有<title>xxx</title>標(biāo)簽,用以前的知識,我們只能確定源碼中的<title>和</title>是固定不變的。因此,如果想獲取頁面標(biāo)題(xxx),充其量只能寫一個(gè)類似于這樣的表達(dá)式:<title>.*</title>,而這樣寫匹配出來的是完整的<title>xxx</title>標(biāo)簽,并不是單純的頁面標(biāo)題xxx。
想解決以上問題,就要用到斷言知識。
在講斷言之前,讀者應(yīng)該先了解分組,這有助于理解斷言。
分組在正則中用()表示,根據(jù)小菜理解,分組的作用有兩個(gè):
n 將某些規(guī)律看成是一組,然后進(jìn)行組級別的重復(fù),可以得到意想不到的效果。
n 分組之后,可以通過后向引用簡化表達(dá)式。
先來看第一個(gè)作用,對于IP地址的匹配,簡單的可以寫為如下形式:
\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}
但仔細(xì)觀察,我們可以發(fā)現(xiàn)一定的規(guī)律,可以把.\d{1,3}看成一個(gè)整體,也就是把他們看成一組,再把這個(gè)組重復(fù)3次即可。表達(dá)式如下:
\d{1,3}(.\d{1,3}){3}
這樣一看,就比較簡潔了。
再來看第二個(gè)作用,就拿匹配<title>xxx</title>標(biāo)簽來說,簡單的正則可以這樣寫:
<title>.*</title>
可以看出,上邊表達(dá)式中有兩個(gè)title,完全一樣,其實(shí)可以通過分組簡寫。表達(dá)式如下:
<(title)>.*</\1>
這個(gè)例子實(shí)際上就是反向引用的實(shí)際應(yīng)用。對于分組而言,整個(gè)表達(dá)式永遠(yuǎn)算作第0組,在本例中,第0組是<(title)>.*</\1>,然后從左到右,依次為分組編號,因此,(title)是第1組。
用\1這種語法,可以引用某組的文本內(nèi)容,\1當(dāng)然就是引用第1組的文本內(nèi)容了,這樣一來,就可以簡化正則表達(dá)式,只寫一次title,把它放在組里,然后在后邊引用即可。
以此為啟發(fā),我們可不可以簡化剛剛的IP地址正則表達(dá)式呢?原來的表達(dá)式為\d{1,3}(.\d{1,3}){3},里邊的\d{1,3}重復(fù)了兩次,如果利用后向引用簡化,表達(dá)式如下:
(\d{1,3})(.\1){3}
簡單的解釋下,把\d{1,3}放在一組里,表示為(\d{1,3}),它是第1組,(.\1)是第2組,在第2組里通過\1語法,后向引用了第1組的文本內(nèi)容。
經(jīng)過實(shí)際測試,會發(fā)現(xiàn)這樣寫是錯誤的,為什么呢?
小菜一直在強(qiáng)調(diào),后向引用,引用的僅僅是文本內(nèi)容,而不是正則表達(dá)式!
也就是說,組中的內(nèi)容一旦匹配成功,后向引用,引用的就是匹配成功后的內(nèi)容,引用的是結(jié)果,而不是表達(dá)式。
因此,(\d{1,3})(.\1){3}這個(gè)表達(dá)式實(shí)際上匹配的是四個(gè)數(shù)都相同的IP地址,比如:123.123.123.123。
至此,讀者已經(jīng)掌握了傳說中的后向引用,就這么簡單。
接下來說說什么是斷言。
所謂斷言,就是指明某個(gè)字符串前邊或者后邊,將會出現(xiàn)滿足某種規(guī)律的字符串。
就拿文章開篇的例子來說,我們想要的是xxx,它沒有規(guī)律,但是它前邊肯定會有<title>,后邊肯定會有</title>,這就足夠了。
想指定xxx前肯定會出現(xiàn)<title>,就用正后發(fā)斷言,表達(dá)式:(?<=<title>).*
向指定xxx后邊肯定會出現(xiàn)</title>,就用正先行斷言,表達(dá)式:.*(?=</title>)
兩個(gè)加在一起,就是(?<=<title>).*(?=</title>)
這樣就能匹配到xxx。
相信讀者看到這,已經(jīng)蒙了,不用急,待小菜慢慢講來。
其實(shí)掌握了規(guī)律,就很簡單了,無論是先行還是后發(fā),都是相對于xxx而言的,也就是相對于目標(biāo)字符串而言。
假如目標(biāo)字符串后邊有條件,可以理解為目標(biāo)字符串在前,就用先行斷言,放在目標(biāo)字符串之后。
假如目標(biāo)字符串前邊有條件,可以理解為目標(biāo)字符串在后,就用后發(fā)斷言,放在目標(biāo)字符串之前。
假如指定滿足某個(gè)條件,就是正。
假如指定不滿足某個(gè)條件,就是負(fù)。
斷言只是條件,幫你找到真正需要的字符串,本身并不會匹配!
|
(?=X ) |
零寬度正先行斷言。僅當(dāng)子表達(dá)式 X 在 此位置的右側(cè)匹配時(shí)才繼續(xù)匹配。例如,/w+(?=/d) 與后跟數(shù)字的單詞匹配,而不與該數(shù)字匹配。此構(gòu)造不會回溯。 |
|
(?!X) |
零寬度負(fù)先行斷言。僅當(dāng)子表達(dá)式 X 不在 此位置的右側(cè)匹配時(shí)才繼續(xù)匹配。例如,例如,/w+(?!/d) 與后不跟數(shù)字的單詞匹配,而不與該數(shù)字匹配 。 |
|
(?<=X) |
零寬度正后發(fā)斷言。僅當(dāng)子表達(dá)式 X 在 此位置的左側(cè)匹配時(shí)才繼續(xù)匹配。例如,(?<=19)99 與跟在 19 后面的 99 的實(shí)例匹配。此構(gòu)造不會回溯。 |
|
(?<!X) |
零寬度負(fù)后發(fā)斷言。僅當(dāng)子表達(dá)式 X 不在此位置的左側(cè)匹配時(shí)才繼續(xù)匹配。例如,(?<!19)99 與不跟在 19 后面的 99 的實(shí)例匹配 |
從斷言的表達(dá)形式可以看出,它用的就是分組符號,只不過開頭都加了一個(gè)問號,這個(gè)問號就是在說這是一個(gè)非捕獲組,這個(gè)組沒有編號,不能用來后向引用,只能當(dāng)做斷言。
教程到此結(jié)束,希望大家閱讀愉快!
相關(guān)文章
Ext JS 4官方文檔之三 -- 類體系概述與實(shí)踐
Ext JS 4從底層對類體系進(jìn)行了重構(gòu),這是Ext JS歷史上的第一次對類體系的巨大重構(gòu),需要的朋友可以參考下2012-12-12
使用js聲明數(shù)組,對象在jsp頁面中(獲得ajax得到j(luò)son數(shù)據(jù))
使用js聲明數(shù)組,對象在jsp頁面中(獲得ajax得到j(luò)son數(shù)據(jù))。需要的朋友可以過來參考下,希望對大家有所幫助2013-11-11
在JavaScript中使用對數(shù)Math.log()方法的教程
這篇文章主要介紹了在JavaScript中使用對數(shù)Math.log()方法的教程,是JS入門學(xué)習(xí)中的基礎(chǔ)知識,需要的朋友可以參考下2015-06-06
分析Node.js connect ECONNREFUSED錯誤
最近在準(zhǔn)備Angularjs +node.js demo的時(shí)候在我的mac開發(fā)中 遇見此錯誤2013-04-04
JavaScript中幾種排序算法的簡單實(shí)現(xiàn)
這篇文章主要介紹了JavaScript中幾種排序算法的簡單實(shí)現(xiàn),排序是各種編程語言學(xué)習(xí)中都是共通的必會的基礎(chǔ),需要的朋友可以參考下2015-07-07

