Python利用正則表達(dá)式從字符串提取數(shù)字

更新時(shí)間：2022年02月07日 11:00:47 作者：Buer_zhu

正則表達(dá)式是一個(gè)特殊的字符序列,它能幫助你方便的檢查一個(gè)字符串是否與某種模式匹配,下面這篇文章主要給大家介紹了關(guān)于Python利用正則表達(dá)式從字符串提取數(shù)字的相關(guān)資料,需要的朋友可以參考下

前言

正則表達(dá)式是一個(gè)特殊的字符序列，它能幫助你方便的檢查一個(gè)字符串是否與某種模式匹配。

Python 自1.5版本起增加了re 模塊，它提供 Perl 風(fēng)格的正則表達(dá)式模式。

re 模塊使 Python 語(yǔ)言擁有全部的正則表達(dá)式功能。

利用正則表達(dá)式從字符串提取數(shù)字

主要用到下面幾個(gè)函數(shù)

（1）compile 函數(shù)根據(jù)一個(gè)模式字符串和可選的標(biāo)志參數(shù)生成一個(gè)正則表達(dá)式對(duì)象。該對(duì)象擁有一系列方法用于正則表達(dá)式匹配和替換。

語(yǔ)法格式為：

re.compile(pattern[, flags])

參數(shù)：

pattern : 一個(gè)字符串形式的正則表達(dá)式
flags 可選，表示匹配模式，比如忽略大小寫，多行模式等，具體參數(shù)為：
re.I 忽略大小寫
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當(dāng)前環(huán)境
re.M 多行模式
re.S 即為' . '并且包括換行符在內(nèi)的任意字符（' . '不包括換行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴于 Unicode 字符屬性數(shù)據(jù)庫(kù)
re.X 為了增加可讀性，忽略空格和' # '后面的注釋

（2）re.match 嘗試從字符串的起始位置匹配一個(gè)模式，如果不是起始位置匹配成功的話，match()就返回none。

函數(shù)語(yǔ)法：

re.match(pattern, string, flags=0)

（3）re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配。

函數(shù)語(yǔ)法：

re.search(pattern, string, flags=0)

注：

re.match只匹配字符串的開始，如果字符串開始不符合正則表達(dá)式，則匹配失敗，函數(shù)返回None；而re.search匹配整個(gè)字符串，直到找到一個(gè)匹配。

（4）findall

在字符串中找到正則表達(dá)式所匹配的所有子串，并返回一個(gè)列表，如果沒有找到匹配的，則返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

語(yǔ)法格式為：

findall(string[, pos[, endpos]])

參數(shù)：

string 待匹配的字符串。
pos 可選參數(shù)，指定字符串的起始位置，默認(rèn)為 0。
endpos 可選參數(shù)，指定字符串的結(jié)束位置，默認(rèn)為字符串的長(zhǎng)度。

下面是實(shí)現(xiàn)的具體方法：

def findnum(string):
    comp=re.compile(-?[1-9]\d*)
    list_str=comp.findall(string)
    list_num=[]
    for item in list_str:
        item=int(item)
        list_num.append(item)
    return list_num

re.compile()的一些匹配參數(shù)：

[1-9]\d*　正整數(shù)
-[1-9]\d* 　負(fù)整數(shù)
-?[1-9]\d*　整數(shù)
[1-9]\d*|0　非負(fù)整數(shù)
-[1-9]\d*|0　　非正整數(shù)
[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　　正浮點(diǎn)數(shù)
-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　負(fù)浮點(diǎn)數(shù)
-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　浮點(diǎn)數(shù)

附python正則表達(dá)式抽取文本中的時(shí)間日期

使用python的正則表達(dá)式抽取文本中的年月日信息，如2020年5月19日。

def find_time(yanbao_txt, entity):
    paras = [para.strip() for para in yanbao_txt.split('\n') if para.strip()][:5]
    for para in paras:
        ret = re.findall(r'(\d{4})\s*[\./年-]\s*(\d{1,2})\s*[\./月-]\s*(\d{1,2})\s*日?', para)
        if ret:
            year, month, day = ret[0]
            time = '{}/{}/{}'.format(year, month.lstrip(), day.lstrip())
            return time
    return None