python處理html轉(zhuǎn)義字符的方法詳解

更新時間：2016年07月01日 11:05:54 作者：holybin

這篇文章主要介紹了python處理html轉(zhuǎn)義字符的方法,結(jié)合實例形式較為詳細(xì)的分析了Python針對常見HTML轉(zhuǎn)義字符處理技巧,具有一定參考借鑒價值,需要的朋友可以參考下

本文實例講述了python處理html轉(zhuǎn)義字符的方法。分享給大家供大家參考，具體如下：

最近在用Python處理網(wǎng)頁數(shù)據(jù)時，經(jīng)常遇到一些html轉(zhuǎn)義字符（也叫html字符實體），例如<> 等。字符實體一般是為了表示網(wǎng)頁中的預(yù)留字符，比如>用>表示，防止被瀏覽器認(rèn)為是標(biāo)簽，具體參考w3school的HTML 字符實體。雖然很有用，但是它們會極度影響對于網(wǎng)頁數(shù)據(jù)的解析。為了處理這些轉(zhuǎn)義字符，有如下解決方案：

1、使用HTMLParser處理

import HTMLParser
html_cont = "&nbsp;asdfg&gt;123&lt;"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"

轉(zhuǎn)換回去（只是空格轉(zhuǎn)不回去了）：

import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg&gt;123&lt;"

2、直接挨個替換

html_cont = "&nbsp;asdfg&gt;123&lt;"
new_cont = new_cont.replace('&nbsp;', ' ')
print new_cont #new_cont = " asdfg&gt;123&lt;"
new_cont = new_cont.replace('&gt;', '>')
print new_cont #new_cont = " asdfg>123&lt;"
new_cont = new_cont.replace('&lt;', '<')
print new_cont #new_cont = " asdfg>123<"

不知道還有沒有更好的辦法。

另外stackoverflow上給出了在xml中處理轉(zhuǎn)義字符的解答：python - What's the best way to handle  -like entities in XML documents with lxml? - Stack Overflow。

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題：《Python編碼操作技巧總結(jié)》、《Python圖片操作技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python Socket編程技巧總結(jié)》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對大家Python程序設(shè)計有所幫助。

您可能感興趣的文章:

相關(guān)文章

python之流程控制語句match-case詳解
這篇文章主要介紹了python之流程控制語句match-case使用,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2025-03-03
Python進(jìn)階之全面解讀高級特性之切片
切片的作用就是截取序列對象，然而，對于非序列對象，我們是否有辦法做到切片操作呢？在使用切片的過程中，有什么要點值得重視，又有什么底層原理值得關(guān)注呢？本文將主要跟大家一起來探討這些內(nèi)容
2019-02-02
詳解Python的條件語句
這篇文章主要為大家介紹了Python的條件語句，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助
2022-01-01
使用Python的OpenCV模塊識別滑動驗證碼的缺口（推薦）
這篇文章主要介紹了使用Python的OpenCV模塊識別滑動驗證碼的缺口,本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價值，需要的朋友可以參考下
2019-05-05
Python內(nèi)建模塊collections實現(xiàn)特殊容器數(shù)據(jù)類型
collections模塊是Python的內(nèi)建模塊之一，它實現(xiàn)了特殊的容器數(shù)據(jù)類型，提供了Python內(nèi)建的數(shù)據(jù)類型dict、list、set、和tuple的高效替代選擇
2023-06-06
一文帶你掌握Python自然語言處理庫SpaCy
SpaCy是一個非常強大的Python自然語言處理庫,它包含了眾多強大功能，如詞性標(biāo)注、命名實體識別、依賴關(guān)系解析等等,這篇文章的目標(biāo)是幫助你了解SpaCy的基本功能和如何使用,需要的朋友可以參考下
2023-07-07
python中圖像通道分離與合并實例
今天小編就為大家分享一篇python中圖像通道分離與合并實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
django重新生成數(shù)據(jù)庫中的某張表方法
今天小編就為大家分享一篇django重新生成數(shù)據(jù)庫中的某張表方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-08-08
python重寫方法和重寫特殊構(gòu)造方法
這篇文章主要介紹了python重寫方法和重寫特殊構(gòu)造方法，對于父類的方法，只要他不符合子類模擬的實物的行為，都可以進(jìn)行重寫，更多相關(guān)內(nèi)容需要的朋友可以參考一下
2022-07-07
django settings.py配置文件的詳細(xì)介紹
本文主要介紹了django settings.py配置文件的詳細(xì)介紹，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2022-04-04