python使用正則表達式匹配反斜杠\遇到的問題
遇到的問題:
在做爬蟲的時候,爬取的url鏈接內還有轉義字符,反斜杠 \,打算用正則的re.sub()替換掉的時候遇到了問題,這是要做替換的字符串

最開始直接寫
re.sub("\\","",item)編譯器漏紅了

然后就是找解決辦法,最后發(fā)現要用四個反斜杠才可以,也就是使用
re.sub("\\\\","",item)查了查資料,簡單說說我自己的理解。
正則表達式
首先就是正則表達式,對于正則表達式來說,他的語法是獨立的,有自己的語法,在正則表達式中,由于反斜杠 \ 是一個特殊字符,可以和其他字母形成轉義字符,所以要想表示一個反斜杠 \ 就必須寫成 \\ 這種形式。所以對于正則表達式來說,如果要匹配一個\ 就要寫成\\,像這樣:

python字符串
在python中,如果想要輸出一個反斜杠\字符,同樣要使用轉義:
>>> print("\\")
\
同樣是因為在python中反斜杠也是一個特殊字符。
綜上
當寫成
item = "https:\/\/jobs.51job.com/guangzhou-thq\/137115906.html?s=sou_sou_soulb&t=0_0"
item = re.sub("\\\\","",item)
首先傳入的一個參數是一個字符串,所以python中的字符串解析器會把"\\\\"解析成\\,解析之后會再傳遞給正則表達式的解析器。由于正則表達式也有自己的語法結構,所以當它看到\\時,會把它解析為一個\,所以這時候正則匹配就會只匹配一個\。
貼一個Stackoverflow上的回答:
If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:
regex("\\\\")is interpreted as…
regex("\\" [escaped backslash] followed by "\\" [escaped backslash])
is interpreted as…
regex(\\)is interpreted as a regex that matches a single backslash.
原文地址:Can’t escape the backslash with regex?
當然還可以使用 raw string來寫,也就是寫成
re.sub(r'\\','',item)
由于使用了r'\\',python的字符串解析器看到r'\\'之后,就直接將外層的r''去掉然后傳遞給re解析器,re解析器會再次解析\\為\,匹配內容是一個反斜杠\
字符串方法replace()
除了使用正則替換之外,還可以使用字符串的replace()
str.replace(old, new[, max])
old – 將被替換的子字符串。
new – 新字符串,用于替換old子字符串。
max – 可選字符串, 替換不超過 max 次
>>> item
'https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0'
>>> item.replace('\\','')
'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0'
>>>
需要注意的是不論是正則的re.sub()還是str.replace(),使用之后都不會對原始字符串改變:
import re
urL ='https:\/\/jobs.51job.com\/guangzhou-thq\/137735415.html?s=sou_sou_soulb&t=0_0'
print(urL.replace('\\',''))
print(urL)
print(re.sub(r'\\','',urL))
print(urL)

總結
到此這篇關于python使用正則表達式匹配反斜杠\遇到問題的文章就介紹到這了,更多相關python正則表達式匹配反斜杠\內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
python自動化測試中裝飾器@ddt與@data源碼深入解析
最近工作中接觸了python自動化測試,所以下面這篇文章主要給大家介紹了關于python自動化測試中裝飾器@ddt與@data源碼解析的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下2022-12-12
Python中getattr函數和hasattr函數作用詳解
這篇文章主要介紹了Python中getattr函數和hasattr函數作用的相關知識,非常不錯具有參考借鑒價值,需要的朋友可以參考下2016-06-06

