詳解用Python處理HTML轉(zhuǎn)義字符的5種方式
寫(xiě)爬蟲(chóng)是一個(gè)發(fā)送請(qǐng)求,提取數(shù)據(jù),清洗數(shù)據(jù),存儲(chǔ)數(shù)據(jù)的過(guò)程。在這個(gè)過(guò)程中,不同的數(shù)據(jù)源返回的數(shù)據(jù)格式各不相同,有 JSON 格式,有 XML 文檔,不過(guò)大部分還是 HTML 文檔,HTML 經(jīng)常會(huì)混雜有轉(zhuǎn)移字符,這些字符我們需要把它轉(zhuǎn)義成真正的字符。
什么是轉(zhuǎn)義字符
在 HTML 中 <、>、& 等字符有特殊含義(<,> 用于標(biāo)簽中,& 用于轉(zhuǎn)義),他們不能在 HTML 代碼中直接使用,如果要在網(wǎng)頁(yè)中顯示這些符號(hào),就需要使用 HTML 的轉(zhuǎn)義字符串(Escape Sequence),例如 < 的轉(zhuǎn)義字符是 <,瀏覽器渲染 HTML 頁(yè)面時(shí),會(huì)自動(dòng)把轉(zhuǎn)移字符串換成真實(shí)字符。
轉(zhuǎn)義字符(Escape Sequence)由三部分組成:第一部分是一個(gè) & 符號(hào),第二部分是實(shí)體(Entity)名字,第三部分是一個(gè)分號(hào)。 比如,要顯示小于號(hào)(<),就可以寫(xiě)< 。
| 顯示字符 | 說(shuō)明 | 轉(zhuǎn)義字符 |
|---|---|---|
| < | 小于 | < |
| 空格 | ||
| < | 小于 | < |
| > | 大于 | > |
| & | &符號(hào) | & |
| " | 雙引號(hào) | " |
| © | 版權(quán) | © |
| ® | 已注冊(cè)商標(biāo) | ® |
Python 反轉(zhuǎn)義字符串
用 Python 來(lái)處理轉(zhuǎn)義字符串有多種方式,而且 py2 和 py3 中處理方式不一樣,在 python2 中,反轉(zhuǎn)義串的模塊是 HTMLParser。
# python2
import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'
Python3 HTMLParser 模塊遷移到了 html.parser
# python3
>>> from html.parser import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'
到 python3.4 以后的版本,在 html 模塊新增了 unescape 方法。
# python3.4
>>> import html
>>> html.unescape('a=1&b=2')
'a=1&b=2'
推薦最后一種寫(xiě)法,因?yàn)?HTMLParser.unescape 方法在 Python3.4 就已經(jīng)被廢棄掉不推薦使用了,意味著之后的版本會(huì)被徹底移除。
另外,sax 模塊也有支持反轉(zhuǎn)義的函數(shù)
>>> from xml.sax.saxutils import unescape
>>> unescape('a=1&b=2')
'a=1&b=2'
當(dāng)然,你完全可以實(shí)現(xiàn)自己的反轉(zhuǎn)義功能,也不復(fù)雜,當(dāng)然,我們崇尚不重復(fù)造輪子。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python字符串中轉(zhuǎn)義字符的完全指南
- 如何解決Python讀取圖片路徑存在轉(zhuǎn)義字符的問(wèn)題
- python中的轉(zhuǎn)義字符串問(wèn)題
- Python中空格的轉(zhuǎn)義字符方式
- Python字符串的轉(zhuǎn)義字符
- 一篇文章搞懂python的轉(zhuǎn)義字符及用法
- Python對(duì)HTML轉(zhuǎn)義字符進(jìn)行反轉(zhuǎn)義的實(shí)現(xiàn)方法
- Python 轉(zhuǎn)義字符詳細(xì)介紹
- python處理html轉(zhuǎn)義字符的方法詳解
- Python轉(zhuǎn)義字符與原字符的實(shí)現(xiàn)示例
相關(guān)文章
python實(shí)現(xiàn)多線程采集的2個(gè)代碼例子
這篇文章主要介紹了python多線程采集代碼例子,使用了Threading、Queue、MySQLdb等模塊,需要的朋友可以參考下2014-07-07
一文解密Python函數(shù)的實(shí)現(xiàn)原理
函數(shù)是任何一門(mén)編程語(yǔ)言都具備的基本元素,它可以將多個(gè)要執(zhí)行的操作組合起來(lái),一個(gè)函數(shù)代表了一系列的操作。那就來(lái)看看Python函數(shù)的實(shí)現(xiàn)原理吧2023-03-03
淺談keras中自定義二分類(lèi)任務(wù)評(píng)價(jià)指標(biāo)metrics的方法以及代碼
這篇文章主要介紹了淺談keras中自定義二分類(lèi)任務(wù)評(píng)價(jià)指標(biāo)metrics的方法以及代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-06-06
matplotlib.pyplot畫(huà)圖并導(dǎo)出保存的實(shí)例
今天小編就為大家分享一篇matplotlib.pyplot畫(huà)圖并導(dǎo)出保存的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12

