在python中使用正則表達(dá)式查找可嵌套字符串組
在網(wǎng)上看到一個(gè)小需求,需要用正則表達(dá)式來處理。原需求如下:
找出文本中包含”因?yàn)椤浴钡木渥?,并以兩個(gè)詞為中心對(duì)齊輸出前后3個(gè)字,中間全輸出,如果“因?yàn)椤焙汀八浴敝虚g還存在“因?yàn)椤薄八浴?,也要找出來,另算一行,輸出格式為?/p>
行號(hào) 前面3個(gè)字 *因?yàn)? 全部 &所以& 后面3個(gè)字(標(biāo)點(diǎn)符號(hào)算一個(gè)字)
2 還不是 *因?yàn)? 這里好, &所以& 沒有人
實(shí)現(xiàn)方法如下:
#encoding:utf-8
import os
import re
def getPairStriList(filename):
pairStrList = []
textFile = open(filename, 'r')
pattern = re.compile(u'.{3}\u56e0\u4e3a.*\u6240\u4ee5.{3}') #u'\u56e0\u4e3a和u'\u6240\u4ee5'分別為“因?yàn)椤焙汀八浴钡膗tf8碼
for line in textFile:
utfLine = line.decode('utf8')
result = pattern.search(utfLine)
while result:
resultStr = result.group()
pairStrList.append(resultStr)
result = pattern.search(resultStr,2,len(resultStr)-2)
#對(duì)每個(gè)字符串進(jìn)行格式轉(zhuǎn)換和拼接
for i in range(len(pairStrList)):
pairStrList[i] = pairStrList[i][:3] + pairStrList[i][3:5].replace(u'\u56e0\u4e3a',u' *\u56e0\u4e3a* ',1) + pairStrList[i][5:]
pairStrList[i] = pairStrList[i][:len(pairStrList[i])-5] + pairStrList[i][len(pairStrList[i])-5:].replace(u'\u6240\u4ee5',u' &\u6240\u4ee5& ',1)
pairStrList[i] = str(i+1) + ' ' + pairStrList[i]
return pairStrList
if __name__ == '__main__':
pairStrList = getPairStriList('test.txt')
for str in pairStrList:
print str
PS:下面看下python里使用正則表達(dá)式的組嵌套
由于組本身是一個(gè)完整的正則表達(dá)式,所以可以將組嵌套在其他組中,以構(gòu)建更復(fù)雜的表達(dá)式。下面的例子,就是進(jìn)行組嵌套的例子:
#python 3.6
#蔡軍生
#http://blog.csdn.net/caimouse/article/details/51749579
#
import re
def test_patterns(text, patterns):
"""Given source text and a list of patterns, look for
matches for each pattern within the text and print
them to stdout.
"""
# Look for each pattern in the text and print the results
for pattern, desc in patterns:
print('{!r} ({})\n'.format(pattern, desc))
print(' {!r}'.format(text))
for match in re.finditer(pattern, text):
s = match.start()
e = match.end()
prefix = ' ' * (s)
print(
' {}{!r}{} '.format(prefix,
text[s:e],
' ' * (len(text) - e)),
end=' ',
)
print(match.groups())
if match.groupdict():
print('{}{}'.format(
' ' * (len(text) - s),
match.groupdict()),
)
print()
return
例子:
#python 3.6 #蔡軍生 #http://blog.csdn.net/caimouse/article/details/51749579 # from re_test_patterns_groups import test_patterns test_patterns( 'abbaabbba', [(r'a((a*)(b*))', 'a followed by 0-n a and 0-n b')], )
結(jié)果輸出如下:
'a((a*)(b*))' (a followed by 0-n a and 0-n b)
'abbaabbba'
'abb' ('bb', '', 'bb')
'aabbb' ('abbb', 'a', 'bbb')
'a' ('', '', '')
總結(jié)
以上所述是小編給大家介紹的在python中使用正則表達(dá)式查找可嵌套字符串組,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
利用python中集合的唯一性實(shí)現(xiàn)去重
集合,用{ }表示,集合中所有元素具有唯一性。這篇文章給大家介紹利用python中集合的唯一性實(shí)現(xiàn)去重,感興趣的朋友一起看看吧2020-02-02
python 基于PYMYSQL使用MYSQL數(shù)據(jù)庫
這篇文章主要介紹了python 基于PYMYSQL使用MYSQL數(shù)據(jù)庫的方法,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2020-12-12
Python3 把一個(gè)列表按指定數(shù)目分成多個(gè)列表的方式
今天小編就為大家分享一篇Python3 把一個(gè)列表按指定數(shù)目分成多個(gè)列表的方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-12-12
詳解Python 重學(xué)requests發(fā)起請(qǐng)求的基本方式
這篇文章主要介紹了詳解Python 重學(xué)requests發(fā)起請(qǐng)求的基本方式,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02

