Python在字符串中處理html和xml的方法
問(wèn)題
你想將HTML或者XML實(shí)體如 &entity; 或 &#code; 替換為對(duì)應(yīng)的文本。 再者,你需要轉(zhuǎn)換文本中特定的字符(比如<, >, 或 &)。
解決方案
如果你想替換文本字符串中的 ‘<' 或者 ‘>' ,使用 html.escape() 函數(shù)可以很容易的完成。比如:
>>> s = 'Elements are written as "<tag>text</tag>".' >>> import html >>> print(s) Elements are written as "<tag>text</tag>". >>> print(html.escape(s)) Elements are written as "<tag>text</tag>". >>> # Disable escaping of quotes >>> print(html.escape(s, quote=False)) Elements are written as "<tag>text</tag>". >>>
如果你正在處理的是ASCII文本,并且想將非ASCII文本對(duì)應(yīng)的編碼實(shí)體嵌入進(jìn)去, 可以給某些I/O函數(shù)傳遞參數(shù) errors='xmlcharrefreplace' 來(lái)達(dá)到這個(gè)目。比如:
>>> s = 'Spicy Jalapeño'
>>> s.encode('ascii', errors='xmlcharrefreplace')
b'Spicy Jalapeño'
>>>
為了替換文本中的編碼實(shí)體,你需要使用另外一種方法。 如果你正在處理HTML或者XML文本,試著先使用一個(gè)合適的HTML或者XML解析器。 通常情況下,這些工具會(huì)自動(dòng)替換這些編碼值,你無(wú)需擔(dān)心。
有時(shí)候,如果你接收到了一些含有編碼值的原始文本,需要手動(dòng)去做替換, 通常你只需要使用HTML或者XML解析器的一些相關(guān)工具函數(shù)/方法即可。比如:
>>> s = 'Spicy "Jalapeño".' >>> from html.parser import HTMLParser >>> p = HTMLParser() >>> p.unescape(s) 'Spicy "Jalapeño".' >>> >>> t = 'The prompt is >>>' >>> from xml.sax.saxutils import unescape >>> unescape(t) 'The prompt is >>>' >>>
討論
在生成HTML或者XML文本的時(shí)候,如果正確的轉(zhuǎn)換特殊標(biāo)記字符是一個(gè)很容易被忽視的細(xì)節(jié)。 特別是當(dāng)你使用 print() 函數(shù)或者其他字符串格式化來(lái)產(chǎn)生輸出的時(shí)候。 使用像 html.escape() 的工具函數(shù)可以很容易的解決這類問(wèn)題。
如果你想以其他方式處理文本,還有一些其他的工具函數(shù)比如 xml.sax.saxutils.unescapge() 可以幫助你。 然而,你應(yīng)該先調(diào)研清楚怎樣使用一個(gè)合適的解析器。 比如,如果你在處理HTML或XML文本, 使用某個(gè)解析模塊比如 html.parse 或 xml.etree.ElementTree 已經(jīng)幫你自動(dòng)處理了相關(guān)的替換細(xì)節(jié)。
以上就是Python在字符串中處理html和xml的方法的詳細(xì)內(nèi)容,更多關(guān)于Python在字符串中處理html和xml的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python List remove()實(shí)例用法詳解
在本篇內(nèi)容里小編給大家整理了一篇關(guān)于Python List remove()方法及實(shí)例,有需要的朋友們跟著學(xué)習(xí)下。2021-08-08
python+opencv+caffe+攝像頭做目標(biāo)檢測(cè)的實(shí)例代碼
今天小編就為大家分享一篇python+opencv+caffe+攝像頭做目標(biāo)檢測(cè)的實(shí)例代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-08-08
tensorflow實(shí)現(xiàn)加載mnist數(shù)據(jù)集
這篇文章主要為大家詳細(xì)介紹了tensorflow實(shí)現(xiàn)加載mnist數(shù)據(jù)集,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-09-09
python多進(jìn)程中的生產(chǎn)者和消費(fèi)者模型詳解
這篇文章主要介紹了python多進(jìn)程中的生產(chǎn)者和消費(fèi)者模型,生產(chǎn)者是指生產(chǎn)數(shù)據(jù)的任務(wù),消費(fèi)者是指消費(fèi)數(shù)據(jù)的任務(wù)。當(dāng)生產(chǎn)者的生產(chǎn)能力遠(yuǎn)大于消費(fèi)者的消費(fèi)能力,生產(chǎn)者就需要等消費(fèi)者消費(fèi)完才能繼續(xù)生產(chǎn)新的數(shù)據(jù)2023-03-03
Python中for循環(huán)語(yǔ)句實(shí)戰(zhàn)案例
這篇文章主要給大家介紹了關(guān)于Python中for循環(huán)語(yǔ)句的相關(guān)資料,python中for循環(huán)一般用來(lái)迭代字符串,列表,元組等,當(dāng)for循環(huán)用于迭代時(shí)不需要考慮循環(huán)次數(shù),循環(huán)次數(shù)由后面的對(duì)象長(zhǎng)度來(lái)決定,需要的朋友可以參考下2023-09-09
PyQt通過(guò)動(dòng)畫實(shí)現(xiàn)平滑滾動(dòng)的QScrollArea
這篇文章主要為大家詳細(xì)介紹了PyQt如何使用Qt的動(dòng)畫框架 QPropertyAnimation來(lái)實(shí)現(xiàn)平滑滾動(dòng)的QScrollArea,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,感興趣的可以學(xué)習(xí)一下2023-01-01
matplotlib交互式數(shù)據(jù)光標(biāo)實(shí)現(xiàn)(mplcursors)
這篇文章主要介紹了matplotlib交互式數(shù)據(jù)光標(biāo)實(shí)現(xiàn)(mplcursors),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01

