Python for Informatics 第11章 正則表達式(一)
正則表達式,又稱正規(guī)表示法、常規(guī)表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串。在很多文本編輯器里,正則表達式通常被用來檢索、替換那些符合某個模式的文本。
注:以下文章原文來自于Dr Charles Severance 的 《Python for Informatics》
目前為止,我們一直在通讀文件,查找模式和抽取字里行間我們感興趣的各種信息。我們一直在使用像split和find的字符串方法,以及列表和字符串的切片功能來抽取行中的部分內(nèi)容。
像這樣的查找和抽取任務(wù)是如此常見,所以Python擁有一個非常強大的庫——正則表達式(regular expressions)來優(yōu)雅地處理這些任務(wù)。我們未早一點介紹正則表達式是因為,雖然它們很強大,但是有點復(fù)雜,并且需要一些時間去適應(yīng)它們的語法。
正式表達式近乎是一個用來查找和分析字符串的小型編程語言。事實上,關(guān)于正則表達式可以寫一本完整的書。在這一章,我們將只涉及其基礎(chǔ)。想要獲得正則表達式的更多信息,請參閱:
http://en.wikipedia.org/wiki/Regular_expression
http://docs.python.org/library/re.html
在你使用正則表達式前,你必須將庫文件導入到你的程序。正則表達式最簡單的應(yīng)用是search()函數(shù),下面的程序?qū)⒀菔緎earch函數(shù)的小應(yīng)用。
import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
if re.search('From:', line):
print(line)
我們打開mbox-short文件,循環(huán)讀取每一行,并用正則表達式的search()來查找包含“From:”字符串的行,然后打印輸出這些行。這個程序并未運用正則表達式的真實能力,因為我們只要簡單的使用line.find()也可實現(xiàn)同樣的結(jié)果。
當我們在查詢字符串中添加特殊字符,使得我們可以更加精確的控制那些匹配字符串的行,這時候正則表達式的能力就開始顯現(xiàn)。在正則表達式中添加那些特殊字符可以讓我們用非常少的代碼實現(xiàn)復(fù)雜的匹配和抽取。
例如,正則表達式中用插入符號^來匹配一行中的開始。我們只要在查詢字符前添加一個插入符,就可將程序修改為只匹配打印以“From:"開始的行,具體代碼如下:
import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
if re.search('^From:', line)
print(line)
現(xiàn)在,我們將只匹配以”From:“開始的行。這個簡單的例子我們可以用字符串庫的startswith()方法同樣實現(xiàn)。這個例子用來告訴我們這樣一個概念,包含特殊字符的正則表達式將給我們更強的控制。
注:原文給的代碼是2.7版,因為我自己使用的是3.4版,所以將print line 修改為 print(line)。
相關(guān)閱讀:
Python for Informatics 第11章 正則表達式(一)
Python for Informatics 第11章之正則表達式(二)
Python for Informatics 第11章之正則表達式(四)
關(guān)于Python for Informatics 第11章 正則表達式(一)的相關(guān)內(nèi)容就給大家介紹這么多,后續(xù)還會持續(xù)更新,更多精彩內(nèi)容敬請關(guān)注!
相關(guān)文章
python從list列表中選出一個數(shù)和其對應(yīng)的坐標方法
今天小編就為大家分享一篇python從list列表中選出一個數(shù)和其對應(yīng)的坐標方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07
django中上傳圖片分頁三級聯(lián)動效果的實現(xiàn)代碼
這篇文章主要介紹了django中上傳圖片分頁三級聯(lián)動效果的實現(xiàn)代碼,非常不錯,具有一定的參考借鑒價值,需要的朋友參考下吧2019-08-08
Python內(nèi)建函數(shù)之raw_input()與input()代碼解析
這篇文章主要介紹了Python內(nèi)建函數(shù)之raw_input()與input()代碼解析,具有一定參考價值,需要的朋友可以了解下。2017-10-10
Python之lambda匿名函數(shù)及map和filter的用法
今天小編就為大家分享一篇關(guān)于Python之lambda匿名函數(shù)及map和filter的用法,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧2019-03-03

