Python使用re模塊實(shí)現(xiàn)信息篩選的方法
本文實(shí)例講述了Python使用re模塊實(shí)現(xiàn)信息篩選的方法。分享給大家供大家參考,具體如下:
背景
平時(shí)工作中,我們經(jīng)常會(huì)處理大量的元數(shù)據(jù)(Raw Data),而一般的文件編輯器只能一次查詢一個(gè)關(guān)鍵字,這就難以連續(xù)的分析元數(shù)據(jù),比如分析產(chǎn)品日志文件(log),日志可能包括很多information級(jí)別的信息,這些一般是我們不太關(guān)心的,我們主要關(guān)心的是一些特殊的調(diào)試(Debug)級(jí)別的信息,所以就有必要根據(jù)很多關(guān)鍵字篩選出來(lái)日志文件中我們所關(guān)系的信息,這樣篩選出來(lái)的日志文件不僅具有連續(xù)性,而且易讀性會(huì)非常好。
解決方案
re是Python自帶的正則表達(dá)式庫(kù)文件,為字符串的匹配篩選提供了極大的便利,本文就是利用re來(lái)進(jìn)行日志文件的信息篩選。首先,簡(jiǎn)單來(lái)看一下re中的主要函數(shù):
1. Compile(pattern, flag):對(duì)正則表達(dá)式進(jìn)行編譯,比檢查語(yǔ)法的正確性。flag是編譯的標(biāo)簽,這里只介紹DOTALL,表示匹配所有的字符,包括新的行。
>>> import re
>>> re.compile('[abc]+')
re.compile('[abc]+')
>>> re.compile(test)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name 'test' is not defined
>>>
2. match(): 從目標(biāo)字符串的開(kāi)頭來(lái)判斷是否與正則表達(dá)式匹配,如果不匹配返回None,反之,返回匹配對(duì)象,包括起始位置,結(jié)束位置,字符串內(nèi)容
>>> import re
>>> test = re.compile('[abc]+')
>>> test.match('dabc')
>>> test.match('babc')
<_sre.SRE_Match object; span=(0, 4), match='babc'>
test是一個(gè)以a或b或c開(kāi)頭的正則表達(dá)式編譯對(duì)象,而match是從目標(biāo)字符串的開(kāi)頭進(jìn)行匹配,所以第一個(gè)目標(biāo)字符串“dabc”不符合正則表達(dá)式規(guī)則,所以返回None;第二個(gè)目標(biāo)字符串可以正常匹配輸出匹配對(duì)象(起始位置,匹配內(nèi)容),由于match每次都從目標(biāo)字符串的開(kāi)頭進(jìn)行匹配,所以如果有匹配字符串,其開(kāi)始位置始終為0.
3. search:與match功能相近,search會(huì)掃描全目標(biāo)字符串進(jìn)行正則表達(dá)式匹配。
>>> import re
>>> test = re.compile('[abc]+')
>>> test.search('dabc')
<_sre.SRE_Match object; span=(1, 4), match='abc'>
>>>
這時(shí)用search就可以匹配a,b,c開(kāi)頭的字符串了
4. findall:找出目標(biāo)字符串中所有的匹配字符串,并以列表的形式返回
>>> test = re.compile('\w+@163.com')
>>> test.findall(r"alvin@163.comtest1234@163.comnotvalid@gmail.com")
['alvin@163.com', 'test1234@163.com']
當(dāng)然,re中還有很多其他的函數(shù)可供大家使用,大家可以去查閱python官方文檔。
其次,介紹幾個(gè)正則表達(dá)式常用的符號(hào):
1. *: 表示匹配其前面字符0或多次
2. .: 表示匹配新行之外的所有字符
3. |: 表示或操作
4. +:表示匹配其前面緊鄰字符一次或多次
5. ?: 表示匹配0或1次
其他的正則表達(dá)式的表示也可去官網(wǎng)文檔查看。
最后,上一下這個(gè)簡(jiǎn)單的篩選程序:
import re
source = 'GCM.txt'
target = 'g2s.txt'
#一級(jí)篩選
raw_compile = re.compile(r"<g2s:g2sMessage.*?</g2s:g2sMessage>",re.DOTALL)
#二級(jí)篩選
messagelevel_compile = re.compile(r"<igtLicensing.*|<g2s:idReader.*",re.DOTALL)
#二級(jí)篩選
egmlevel_compile = re.compile(r"IGT_00012E2335AA.*",re.DOTALL)
def FilterG2SMessage():
fr = open(source)
content = fr.read()
fr.close()
f = open(target,'w')
g2sItems = raw_compile.findall(content)
for g2s in g2sItems:
iscaredG2S = messagelevel_compile.search(g2s)
isCaredEGM = egmlevel_compile.search(g2s)
if iscaredG2S and isCaredEGM:
f.write(g2s+'\n')
else:
pass
f.close()
FilterG2SMessage()
程序很簡(jiǎn)單,在篩選的過(guò)程中大家可以先分析一下篩選的級(jí)別,可以逐級(jí)篩選。
總結(jié):
re不僅僅提供了正則表達(dá)式的匹配,而且提供了一些批量處理的函數(shù),比如split,sub,subn等等,這些函數(shù)都可以提高我們對(duì)文件內(nèi)容的快速處理,節(jié)省時(shí)間。
PS:這里再為大家提供2款非常方便的正則表達(dá)式工具供大家參考使用:
JavaScript正則表達(dá)式在線測(cè)試工具:
http://tools.jb51.net/regex/javascript
正則表達(dá)式在線生成工具:
http://tools.jb51.net/regex/create_reg
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
相關(guān)文章
PyTorch詳解經(jīng)典網(wǎng)絡(luò)種含并行連結(jié)的網(wǎng)絡(luò)GoogLeNet實(shí)現(xiàn)流程
今天小編就為大家分享一篇Pytorch實(shí)現(xiàn)GoogLeNet的方法,GoogLeNet提出了一個(gè)名為“Inception”的深度卷積神經(jīng)網(wǎng)結(jié)構(gòu),其目標(biāo)是將分類、識(shí)別ILSVRC14數(shù)據(jù)集的技術(shù)水平提高一個(gè)層次。這一結(jié)構(gòu)的主要特征是對(duì)網(wǎng)絡(luò)內(nèi)部計(jì)算資源的利用進(jìn)行了優(yōu)化2022-05-05
Pandas根據(jù)條件實(shí)現(xiàn)替換列中的值
在使用Pandas的Python中,DataFrame列中的值可以通過(guò)使用各種內(nèi)置函數(shù)根據(jù)條件進(jìn)行替換,本文主要來(lái)和大家討論在Pandas中用條件替換數(shù)據(jù)集列中的值的各種方法,希望對(duì)大家有所幫助2024-01-01
解決pycharm19.3.3安裝pyqt5找不到designer.exe和pyuic.exe的問(wèn)題
這篇文章給大家介紹了pycharm19.3.3安裝pyqt5&pyqt5-tools后找不到designer.exe和pyuic.exe以及配置QTDesigner和PyUIC的問(wèn)題,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2021-04-04
基于Python Shell獲取hostname和fqdn釋疑
一直以來(lái)被linux的hostname和fqdn(Fully Qualified Domain Name)困惑著,今天通過(guò)腳本之家平臺(tái)把它們使用細(xì)節(jié)弄清分享給大家2016-01-01
django-crontab 定時(shí)執(zhí)行任務(wù)方法的實(shí)現(xiàn)
這篇文章主要介紹了django-crontab 定時(shí)執(zhí)行任務(wù)方法的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-09-09
通過(guò)mod_python配置運(yùn)行在Apache上的Django框架
這篇文章主要介紹了通過(guò)mod_python配置運(yùn)行在Apache上的Django框架,Django是最具人氣的Python web開(kāi)發(fā)框架,需要的朋友可以參考下2015-07-07
Python高階函數(shù)與函數(shù)式編程概念及使用實(shí)例探究
這篇文章主要為大家介紹了Python高階函數(shù)與函數(shù)式編程概念及使用實(shí)例探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-12-12

