Python去除html標(biāo)簽的幾種方法總結(jié)
Python去除html標(biāo)簽的方法
最近小說(shuō)看得比較多,但是很多小說(shuō)網(wǎng)站都存在各種小廣告,看起來(lái)很不方便,所以就自己寫(xiě)了個(gè)小程序,把小說(shuō)都爬下來(lái),然后搭個(gè)自己喜歡web頁(yè)面來(lái)看。
在爬取過(guò)程中沒(méi)有出現(xiàn)太大的問(wèn)題,只有在清洗數(shù)據(jù)時(shí),發(fā)現(xiàn)小說(shuō)文本中混雜HTML標(biāo)簽,所以就需要對(duì)標(biāo)簽進(jìn)行清洗。
我自己嘗試了字符串的處理方式,正則,還有l(wèi)xml等方式來(lái)處理這個(gè)問(wèn)題,現(xiàn)在記錄一下使用方式。
我們使用下面這個(gè)字符串舉例說(shuō)明,內(nèi)容為一段html代碼。需要對(duì)這段字符串進(jìn)行處理,提取文本
html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'
1. 使用正則來(lái)處理
import re
pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)
輸出結(jié)果:
你好哈哈大家好
2. 使用BeautifulSoup來(lái)處理
from bs4 import BeautifulSoup soup = BeautifulSoup(html,'html.parser') print(soup.get_text())
輸出結(jié)果:
你好哈哈大家好
3. 使用lxml來(lái)出來(lái)
from lxml import etree
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))
輸出結(jié)果:
你好哈哈大家好
python正則表達(dá)式去除html標(biāo)簽的屬性
import re test='<p class="pictext" align="center">陳細(xì)妹</p>' test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test) print(test)
輸出
<p>陳細(xì)妹</p>
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Django添加bootstrap框架時(shí)無(wú)法加載靜態(tài)文件的解決方式
這篇文章主要介紹了Django添加bootstrap框架時(shí)無(wú)法加載靜態(tài)文件的解決方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03
Python讀取Excel數(shù)據(jù)實(shí)現(xiàn)批量生成PPT
我們常常面臨著大量的重復(fù)性工作,通過(guò)人工方式處理往往耗時(shí)耗力易出錯(cuò)。而Python在辦公自動(dòng)化方面具有天然優(yōu)勢(shì)。本文將利用讀取Excel數(shù)據(jù)并實(shí)現(xiàn)批量生成PPT,需要的可以參考一下2022-05-05
python用函數(shù)創(chuàng)造字典的實(shí)例講解
在本篇文章里小編給大家整理的是一篇關(guān)于python用函數(shù)創(chuàng)造字典的實(shí)例講解內(nèi)容,有需要的朋友們可以學(xué)習(xí)參考下。2021-06-06
FastApi如何快速構(gòu)建一個(gè)web項(xiàng)目的實(shí)現(xiàn)
本文主要介紹了FastApi如何快速構(gòu)建一個(gè)web項(xiàng)目的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03
詳解python如何在django中為用戶(hù)模型添加自定義權(quán)限
這篇文章主要介紹了python如何在django中為用戶(hù)模型添加自定義權(quán)限,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-10-10
Python實(shí)現(xiàn)圖像尺寸和格式轉(zhuǎn)換處理的示例詳解
這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)圖像尺寸獲取和格式轉(zhuǎn)換處理的功能,文中的示例代碼講解詳細(xì),感興趣的可以了解一下2023-04-04

