python利用正則表達(dá)式提取字符串
前言
正則表達(dá)式的基礎(chǔ)知識(shí)就不說了,有興趣的可以點(diǎn)擊這里,提取一般分兩種情況,一種是提取在文本中提取單個(gè)位置的字符串,另一種是提取連續(xù)多個(gè)位置的字符串。日志分析會(huì)遇到這種情況,下面我會(huì)分別講一下對(duì)應(yīng)的方法。
一、單個(gè)位置的字符串提取
這種情況我們可以使用(.+?)這個(gè)正則表達(dá)式來提取。 舉例,一個(gè)字符串"a123b",如果我們想提取ab之間的值123,可以使用findall配合正則表達(dá)式,這樣會(huì)返回一個(gè)包含所以符合情況的list。
代碼如下:
import re str = "a123b" print re.findall(r"a(.+?)b",str)# 輸出['123']
1.1貪婪和非貪婪匹配
如果我們有一個(gè)字符串”a123b456b”,如果我們想匹配a和最后一個(gè)b之間的所有值而非a和第一個(gè)出現(xiàn)的b之間的值,可以用?來控制正則貪婪和非貪婪匹配的情況。
代碼如下:
import re str = "a123b456b" print re.findall(r"a(.+?)b", str) #輸出['123']#?控制只匹配0或1個(gè),所以只會(huì)輸出和最近的b之間的匹配情況 print re.findall(r"a(.+)b", str) #輸出['123b456'] print re.findall(r"a(.*)b", str) #輸出['123b456']
1.2多行匹配
如果你要多行匹配,那么需要加上re.S和re.M標(biāo)志. 加上re.S后。將會(huì)匹配換行符,默認(rèn).不會(huì)匹配換行符。
代碼如下:
str = "a23b\na34b"
re.findall(r"a(\d+)b.+a(\d+)b", str)
#輸出[]
#因?yàn)椴荒芴幚韘tr中間有\(zhòng)n換行的情況
re.findall(r"a(\d+)b.+a(\d+)b", str, re.S)
#s輸出[('23', '34')]
加上re.M后,^$標(biāo)志將會(huì)匹配每一行,默認(rèn)^和$只會(huì)匹配第一行。
代碼如下:
str = "a23b\na34b" re.findall(r"^a(\d+)b", str) #輸出['23'] re.findall(r"^a(\d+)b", str, re.M) #輸出['23', '34']
二、連續(xù)多個(gè)位置的字符串提取
這種情況我們可以使用(?P<name>…)這個(gè)正則表達(dá)式來提取。舉例,如果我們有一行webserver的access日志:'192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"',我們想提取這行日志里面所有的內(nèi)容,可以寫多個(gè)(?P<name>expr)來提取,其中name可以更改為你為該位置字符串命名的變量,expr改成提取位置的正則即可。
代碼如下:
import re
line ='192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search"
"Mozilla/5.0"'
reg = re.compile('^(?P<remote_ip>[^ ]*) (?P<date>[^ ]*) "(?P<request>[^"]*)"
(?P<status>[^ ]*) (?P<size>[^ ]*) "(?P<referrer>[^"]*)" "(?P<user_agent>[^"]*)"')
regMatch = reg.match(line)
linebits = regMatch.groupdict()
print linebits
for k, v in linebits.items() :
print k+": "+v
輸出的結(jié)果為:
status: 200 referrer: request: GET /api HTTP/1.1 user_agent: Mozilla/5.0 date: 25/Oct/2012:14:46:34size: 44 remote_ip: 192.168.0.1
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來一定的幫助,如果有疑問大家可以留言交流。
相關(guān)文章
Python中識(shí)別圖片/滑塊驗(yàn)證碼準(zhǔn)確率極高的ddddocr庫詳解
驗(yàn)證碼的種類有很多,它是常用的一種反爬手段,包括:圖片驗(yàn)證碼,滑塊驗(yàn)證碼,等一些常見的驗(yàn)證碼場景。這里推薦一個(gè)簡單實(shí)用的識(shí)別驗(yàn)證碼的庫?ddddocr?(帶帶弟弟ocr)庫,希望大家喜歡2023-02-02
五個(gè)簡單有效的Python清理數(shù)據(jù)腳本分享
通常情況下,在機(jī)器學(xué)習(xí)中的數(shù)據(jù)清理往往是一件令人頭疼的事情,本文整理了一份清單,列出了5個(gè)常用的Python腳本,用于自動(dòng)化數(shù)據(jù)清理,需要的可以參考一下2022-09-09
將字典轉(zhuǎn)換為DataFrame并進(jìn)行頻次統(tǒng)計(jì)的方法
下面小編就為大家分享一篇將字典轉(zhuǎn)換為DataFrame并進(jìn)行頻次統(tǒng)計(jì)的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-04-04
在Python中使用sort()方法進(jìn)行排序的簡單教程
這篇文章主要介紹了在Python中使用sort()方法進(jìn)行排序的簡單教程,是Python學(xué)習(xí)中的基礎(chǔ)知識(shí),需要的朋友可以參考下2015-05-05
python網(wǎng)絡(luò)編程學(xué)習(xí)筆記(五):socket的一些補(bǔ)充
前面已經(jīng)為大家介紹了python socket的一些相關(guān)知識(shí),這里為大家補(bǔ)充下,方便需要的朋友2014-06-06
成功解決ValueError:?Supported?target?types?are:('binary
本文給大家分享成功解決ValueError:?Supported?target?types?are:('binary',?'multiclass').?Got?'continuous'?instead.的錯(cuò)誤問題,需要的朋友可以參考下2023-03-03
Python使用matplotlib的pie函數(shù)繪制餅狀圖功能示例
這篇文章主要介紹了Python使用matplotlib的pie函數(shù)繪制餅狀圖功能,結(jié)合實(shí)例形式分析了Python使用matplotlib的pie函數(shù)進(jìn)行餅狀圖繪制的具體操作技巧,注釋中對(duì)pie函數(shù)的用法進(jìn)行了詳細(xì)的說明,便于理解,需要的朋友可以參考下2018-01-01
python模塊smtplib實(shí)現(xiàn)純文本郵件發(fā)送功能
這篇文章主要為大家詳細(xì)介紹了python模塊smtplib實(shí)現(xiàn)純文本郵件發(fā)送功能,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-05-05

