python 正則表達式貪婪模式與非貪婪模式原理、用法實例分析
本文實例講述了python 正則表達式貪婪模式與非貪婪模式原理、用法。分享給大家供大家參考,具體如下:
之前未接觸過正則表達式,今日看python網(wǎng)絡爬蟲的源碼,里面一行正則表達式匹配的代碼初看之下,不是很理解,代碼如下:
myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)
“.*?”這種匹配方式,按理解應該是匹配任意字符0個或多個(re.S模式,“.”可以匹配“\n”),但是這個“?”總覺的在這兒是多余的,既然不理解,就敲代碼試試:
import re
patern = re.compile('www\..*')
match1 = patern.match("www.baidu.com")
if match1:
print(match1.group())
else:
print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.baidu.com
這個結果,應該說是意料之中,加個“?”呢?
import re
patern = re.compile('www\..*?')
match1 = patern.match("www.baidu.com")
if match1:
print(match1.group())
else:
print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.
竟然是這個結果。。?!??”一個字符都沒匹配,按“.”、“”、“?”的匹配理解,也就是“*”“?”均匹配前面字符0次,才會是這個結果,可是為啥就是0次了?
這就是正則表達式貪婪模式和非貪婪模式:
- 貪婪模式,總是嘗試匹配盡可能多的字符;
- 非貪婪模式則相反,總是嘗試匹配盡可能少的字符。
Python里數(shù)量詞默認是貪婪的,這就解釋了第一個匹配實驗,輸出結果為”www.baidu.com”(貪婪模式),也就是說第二個匹配實驗是非貪婪模式,僅僅因為加了“?”,繼續(xù)實驗
import re
patern = re.compile('www\..?')
match1 = patern.match("www.baidu.com")
if match1:
print(match1.group())
else:
print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.b
此次匹配結果,顯然是貪婪模式。奇怪了,也就是“?”的特殊組合才是非貪婪模式。
網(wǎng)上搜索得如下說明:
標準量詞修飾的子表達式,在可匹配可不匹配的情況下,總會先嘗試進行匹配,稱這種方式為匹配優(yōu)先,或者貪婪模式。此前介紹的一些量詞,“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配優(yōu)先的。
一些NFA正則引擎支持忽略優(yōu)先量詞,也就是在標準量詞后加一個“?”,此時,在可匹配可不匹配的情況下,總會先忽略匹配,只有在由忽略優(yōu)先量詞修飾的子表達式,必須進行匹配才能使整個表達式匹配成功時,才會進行匹配,稱這種方式為忽略優(yōu)先,或者非貪婪模式。忽略優(yōu)先量詞包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。
顯然“*?”的組合是非貪婪模式,猜想正確,原來如此啊。
PS:這里再為大家提供2款非常方便的正則表達式工具供大家參考使用:
JavaScript正則表達式在線測試工具:
http://tools.jb51.net/regex/javascript
正則表達式在線生成工具:
http://tools.jb51.net/regex/create_reg
更多關于Python相關內(nèi)容可查看本站專題:《Python正則表達式用法總結》、《Python數(shù)據(jù)結構與算法教程》、《Python函數(shù)使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設計有所幫助。
相關文章
Python實現(xiàn)自定義函數(shù)的5種常見形式分析
這篇文章主要介紹了Python實現(xiàn)自定義函數(shù)的5種常見形式,結合實例形式較為詳細的分析了Python自定義函數(shù)相關的參數(shù)、默認值、隱函數(shù)等相關操作技巧與注意事項,需要的朋友可以參考下2018-06-06
python3.6使用tkinter實現(xiàn)彈跳小球游戲
這篇文章主要為大家詳細介紹了python3.6使用tkinter實現(xiàn)彈跳小球游戲,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-05-05
Python數(shù)據(jù)分析?Numpy?的使用方法
這篇文章主要介紹了Python數(shù)據(jù)分析?Numpy?的使用方法,Numpy?是一個Python擴展庫,專門做科學計算,也是大部分Python科學計算庫的基礎,關于其的使用方法,需要的小伙伴可以參考下面文章內(nèi)容2022-05-05

