python 正則表達式 反斜杠(/)的麻煩和陷阱
更新時間:2009年08月23日 19:57:38 作者:
這里是一點小心得。 由于正則表達式使用反斜杠來轉義特殊字符,而python自身處理字符串時,反斜杠也是用于轉義字符,這樣就產(chǎn)生了一個雙重轉換的問題
要匹配字符串中1個反斜杠應該怎么寫正則表達式?"\\",這樣行嗎?試試就知道了,re模塊拋異常了,因為"\\"就是一個反斜杠,對于正則表達式解析器來說,是一個轉義字符,但是后面啥也沒有,自然就報錯了,"\\\"三個肯定是不行的,試試四個"\\\\",完美匹配。
import re
re_str_patt = "\\\\"
reObj = re.compile(re_str_patt)
str_test = "abc\\cd\\hh"
print reObj.findall(str_test)
輸出:['\\', '\\']
這里要這么理解,首先第一重轉換是字符串自身的轉義,那么"\\\\",實際上就是表示兩個反斜杠(兩個字符),然后傳入正則表達式解析器,因為反斜杠依然是轉義字符,那么進行第二重轉換,兩個反斜杠就代表一個反斜杠,所以就能和一個反斜杠進行匹配了,那么匹配連續(xù)的兩個反斜杠,寫正則表達式時就要寫8次"\"了,相當壯觀,要匹配/d+(這個在正則表達式里面表示連續(xù)1一個以上的數(shù)字字符)這個字符串怎么寫呢?
import re
re_str_patt = "\\\\d\\+"
print re_str_patt
reObj = re.compile(re_str_patt)
print reObj.findall("\\d+")
寫成re_str_patt = "\\\\d\+"也行,因為\+對于字符串來說,沒有轉義意義,所以就當成一個反斜杠了。
在python中寫正則表達式時用得最多的是raw字符串,原生字符串,什么意思?就是只有一重轉換了,沒有字符串轉換了,只在正則表達式內部進行轉換了,這樣匹配一個反斜杠的正則表達式可以這樣寫,re_str_patt = r"\\",有人會想,以后寫windows的文件路徑什么的方便了,呵呵直接 path = r"c:\myforder\xx" 搞定,是的,這句沒有問題,但是如果你寫成 path = r"c:\myforder\xx\",直接報錯了,為什么?因為反斜杠雖然不作為轉義字符了,但是還是對它后面的引號(包括單引號)有影響,使這個引號不被視為字符串的終止,以為它后面還有字符,但是實際沒有,因此會報錯。其實可以反過來想raw字符串里面要表示引號怎么辦呢?,可以發(fā)現(xiàn) path = r"\\123\"xxx" 是可以的,那用raw字符串豈不是有局限性?不過raw在設計之初就是用來支持正則表達式的,而在正則里面反斜杠是轉義字符,所以不可能出現(xiàn)在字符串的末尾的,所以建議不要圖方便在其他的地方使用raw。
復制代碼 代碼如下:
import re
re_str_patt = "\\\\"
reObj = re.compile(re_str_patt)
str_test = "abc\\cd\\hh"
print reObj.findall(str_test)
輸出:['\\', '\\']
這里要這么理解,首先第一重轉換是字符串自身的轉義,那么"\\\\",實際上就是表示兩個反斜杠(兩個字符),然后傳入正則表達式解析器,因為反斜杠依然是轉義字符,那么進行第二重轉換,兩個反斜杠就代表一個反斜杠,所以就能和一個反斜杠進行匹配了,那么匹配連續(xù)的兩個反斜杠,寫正則表達式時就要寫8次"\"了,相當壯觀,要匹配/d+(這個在正則表達式里面表示連續(xù)1一個以上的數(shù)字字符)這個字符串怎么寫呢?
復制代碼 代碼如下:
import re
re_str_patt = "\\\\d\\+"
print re_str_patt
reObj = re.compile(re_str_patt)
print reObj.findall("\\d+")
在python中寫正則表達式時用得最多的是raw字符串,原生字符串,什么意思?就是只有一重轉換了,沒有字符串轉換了,只在正則表達式內部進行轉換了,這樣匹配一個反斜杠的正則表達式可以這樣寫,re_str_patt = r"\\",有人會想,以后寫windows的文件路徑什么的方便了,呵呵直接 path = r"c:\myforder\xx" 搞定,是的,這句沒有問題,但是如果你寫成 path = r"c:\myforder\xx\",直接報錯了,為什么?因為反斜杠雖然不作為轉義字符了,但是還是對它后面的引號(包括單引號)有影響,使這個引號不被視為字符串的終止,以為它后面還有字符,但是實際沒有,因此會報錯。其實可以反過來想raw字符串里面要表示引號怎么辦呢?,可以發(fā)現(xiàn) path = r"\\123\"xxx" 是可以的,那用raw字符串豈不是有局限性?不過raw在設計之初就是用來支持正則表達式的,而在正則里面反斜杠是轉義字符,所以不可能出現(xiàn)在字符串的末尾的,所以建議不要圖方便在其他的地方使用raw。
相關文章
正則驗證不能含有中文的實現(xiàn)方法【jQuery與java實現(xiàn)】
這篇文章主要介紹了正則驗證不能含有中文的實現(xiàn)方法,結合jQuery與java兩種實現(xiàn)方法分析了針對中文的正則驗證操作技巧,需要的朋友可以參考下2017-01-01
PHP 正則表達式特殊字符 [:alnum:] [:alpha:] 等
正則表達式中有兩個很重要的特殊字符就是"[ ]"。他們可以匹配"[]"之中出現(xiàn)過的字符,比如"/[az]/"可以匹配單個字符"a"或者"z";如果把上面的表達式改成這樣"/[a-z]/",就可以匹配任何單個小寫字母,比如"a"、"b"等等。2011-09-09
python中使用正則表達式將所有符合條件的字段全部提取出來
這篇文章主要介紹了python中使用正則表達式將所有符合條件的字段全部提取出來,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-08-08

