Python利用正則表達(dá)式從字符串提取數(shù)字
前言
正則表達(dá)式是一個(gè)特殊的字符序列,它能幫助你方便的檢查一個(gè)字符串是否與某種模式匹配。
Python 自1.5版本起增加了re 模塊,它提供 Perl 風(fēng)格的正則表達(dá)式模式。
re 模塊使 Python 語(yǔ)言擁有全部的正則表達(dá)式功能。
利用正則表達(dá)式從字符串提取數(shù)字
主要用到下面幾個(gè)函數(shù)
(1)compile 函數(shù)根據(jù)一個(gè)模式字符串和可選的標(biāo)志參數(shù)生成一個(gè)正則表達(dá)式對(duì)象。該對(duì)象擁有一系列方法用于正則表達(dá)式匹配和替換。
語(yǔ)法格式為:
re.compile(pattern[, flags])
參數(shù):
- pattern : 一個(gè)字符串形式的正則表達(dá)式
- flags 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體參數(shù)為:
- re.I 忽略大小寫
- re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當(dāng)前環(huán)境
- re.M 多行模式
- re.S 即為' . '并且包括換行符在內(nèi)的任意字符(' . '不包括換行符)
- re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴于 Unicode 字符屬性數(shù)據(jù)庫(kù)
- re.X 為了增加可讀性,忽略空格和' # '后面的注釋
(2)re.match 嘗試從字符串的起始位置匹配一個(gè)模式,如果不是起始位置匹配成功的話,match()就返回none。
函數(shù)語(yǔ)法:
re.match(pattern, string, flags=0)
(3)re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配。
函數(shù)語(yǔ)法:
re.search(pattern, string, flags=0)
注:
re.match只匹配字符串的開始,如果字符串開始不符合正則表達(dá)式,則匹配失敗,函數(shù)返回None;而re.search匹配整個(gè)字符串,直到找到一個(gè)匹配。
(4)findall
在字符串中找到正則表達(dá)式所匹配的所有子串,并返回一個(gè)列表,如果沒有找到匹配的,則返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
語(yǔ)法格式為:
findall(string[, pos[, endpos]])
參數(shù):
string 待匹配的字符串。
pos 可選參數(shù),指定字符串的起始位置,默認(rèn)為 0。
endpos 可選參數(shù),指定字符串的結(jié)束位置,默認(rèn)為字符串的長(zhǎng)度。
下面是實(shí)現(xiàn)的具體方法:
def findnum(string):
comp=re.compile(-?[1-9]\d*)
list_str=comp.findall(string)
list_num=[]
for item in list_str:
item=int(item)
list_num.append(item)
return list_num
re.compile()的一些匹配參數(shù):
- [1-9]\d* 正整數(shù)
- -[1-9]\d* 負(fù)整數(shù)
- -?[1-9]\d* 整數(shù)
- [1-9]\d*|0 非負(fù)整數(shù)
- -[1-9]\d*|0 非正整數(shù)
- [1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 正浮點(diǎn)數(shù)
- -([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 負(fù)浮點(diǎn)數(shù)
- -?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ 浮點(diǎn)數(shù)
附python正則表達(dá)式抽取文本中的時(shí)間日期
使用python的正則表達(dá)式抽取文本中的年月日信息,如2020年5月19日。
def find_time(yanbao_txt, entity):
paras = [para.strip() for para in yanbao_txt.split('\n') if para.strip()][:5]
for para in paras:
ret = re.findall(r'(\d{4})\s*[\./年-]\s*(\d{1,2})\s*[\./月-]\s*(\d{1,2})\s*日?', para)
if ret:
year, month, day = ret[0]
time = '{}/{}/{}'.format(year, month.lstrip(), day.lstrip())
return time
return None
總結(jié)
到此這篇關(guān)于Python利用正則表達(dá)式從字符串提取數(shù)字的文章就介紹到這了,更多相關(guān)Python正則字符串提取數(shù)字內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python讀取圖片EXIF信息類庫(kù)介紹和使用實(shí)例
這篇文章主要介紹了Python讀取圖片EXIF信息類庫(kù)介紹和使用實(shí)例,例如Python Imaging Library、EXIF.py等,需要的朋友可以參考下2014-07-07
Python使用Selenium實(shí)現(xiàn)淘寶搶單的流程分析
這篇文章主要介紹了Python使用Selenium實(shí)現(xiàn)淘寶搶單的流程分析,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06
python自帶tkinter庫(kù)實(shí)現(xiàn)棋盤覆蓋圖形界面
這篇文章主要為大家詳細(xì)介紹了python自帶tkinter庫(kù)實(shí)現(xiàn)棋盤覆蓋圖形界面,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-07-07
對(duì)pandas進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)例講解
下面小編就為大家分享一篇對(duì)pandas進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)例講解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04
使用Python快速遍歷文件夾下所有文件的方法總結(jié)
在日常的編程工作中,我們經(jīng)常會(huì)遇到需要遍歷文件夾下所有文件的情況,無(wú)論是處理大量的數(shù)據(jù)文件、進(jìn)行文件系統(tǒng)的分析,還是實(shí)現(xiàn)復(fù)雜的自動(dòng)化任務(wù),高效地遍歷文件夾下的所有文件都是一項(xiàng)非常重要的技能,在本文中,我們將深入探討如何使用 Python 快速遍歷文件夾下的所有文件2024-11-11
在OpenCV里使用Camshift算法的實(shí)現(xiàn)
這篇文章主要介紹了在OpenCV里使用Camshift算法的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-11-11

