python lxml中etree的簡單應(yīng)用
我一般都是通過xpath解析DOM樹的時候會使用lxml的etree,可以很方便的從html源碼中得到自己想要的內(nèi)容。
這里主要介紹一下我常用到的兩個方法,分別是etree.HTML()和etree.tostrint()。
1.etree.HTML()
etree.HTML()可以用來解析字符串格式的HTML文檔對象,將傳進(jìn)去的字符串轉(zhuǎn)變成_Element對象。作為_Element對象,可以方便的使用getparent()、remove()、xpath()等方法。
如果想通過xpath獲取html源碼中的內(nèi)容,就要先將html源碼轉(zhuǎn)換成_Element對象,然后再使用xpath()方法進(jìn)行解析。例如,這里有一段最簡單的html源碼:"<html><body><h1>This is a test</h1></body></html>",現(xiàn)在想要得到h1標(biāo)簽中的文本,可以這樣實(shí)現(xiàn):
# encoding=utf8
from lxml import etree
html = '<html><body><h1>This is a test</h1></body></html>'
# 將html轉(zhuǎn)換成_Element對象
_element = etree.HTML(html)
# 通過xpath表達(dá)式獲取h1標(biāo)簽中的文本
text = _element.xpath('//h1/text()')
print 'result is: ', text
結(jié)果:
result is: ['This is a test']
通過結(jié)果可以知道,xpath()方法放回的結(jié)果是一個列表,所以通常在取xpath()方法結(jié)果的時候,只取列表中的第一個元素。
2.etree.tostring()
etree.tostring()方法用來將_Element對象轉(zhuǎn)換成字符串。一般通過簡單的xpath表達(dá)式無法得到想要的內(nèi)容的時候我就會用該方法。例如,將上面的html小改動一下:"<html><body><h1>This <a>is a </a>test</h1></body></html>",這時候如果想要得到h1中的文本該怎么辦呢?使用“//h1/text()”試試(將上面的html保存并用火狐瀏覽器打開,然后在FirePath中輸入該xpath表達(dá)式):

通過截圖左下角的提示可以知道,使用xpath表達(dá)式“//h1/text()”只能得到h1標(biāo)簽中文本的“This”和“test”,用代碼實(shí)現(xiàn)看看:
# encoding=utf8
from lxml import etree
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1/text()')
print 'result is: ', text
運(yùn)行結(jié)果:
result is: ['This ', 'test']
確實(shí),使用xpath()方法,只能得到h1中部分文本內(nèi)容,我們再試試使用“//h1//text()”看看:

然后通過代碼實(shí)現(xiàn)看看:
# encoding=utf8
from lxml import etree
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1//text()')
print 'result is: ', text
運(yùn)行結(jié)果:
result is: ['This ', 'is a ', 'test']
通過“//h1//text()”表達(dá)式確實(shí)可以得到想要的內(nèi)容,但是得到的是一個列表,還需要將列表中的所有元素“拼”起來才行,是不是有點(diǎn)麻煩。這時候,就可以考慮使用etree.tostring()方法了,etree.tostring()方法可以傳遞多個參數(shù),包括element_or_tree、encoding、method等,其中method參數(shù)為text的時候,表示返回_Element對象中的所有文本,所以可以這樣:
# encoding=utf8
from lxml import etree
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
# 先找到h1對象,然后通過etree.tostring方法找到h1對象中的所有文本
_h = _element.xpath('//h1')
# 注意,xpath方法返回的是一個列表,我們需要的是列表中的第一個元素:代表h1標(biāo)簽的_Element對象
result = etree.tostring(_h[0], method='text')
print 'result is: ', result
運(yùn)行結(jié)果:
result is: This is a test
這時候使用etree.tostring()方法是不是很容易的就解決問題了。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Pandas?時間序列分析中的resample函數(shù)
這篇文章主要介紹了Pandas?時間序列分析中的resample函數(shù),Pandas?中的resample函數(shù)用于各種頻率的轉(zhuǎn)換工作,下面我們就來看看其的參數(shù)、相關(guān)資料等,需要的小伙伴可以參考一下,希望給你帶來幫助2022-02-02
python實(shí)現(xiàn)上傳樣本到virustotal并查詢掃描信息的方法
這篇文章主要介紹了python實(shí)現(xiàn)上傳樣本到virustotal并查詢掃描信息的方法,是比較實(shí)用的技巧,需要的朋友可以參考下2014-10-10
python把數(shù)據(jù)框?qū)懭隡ySQL的方法
這篇文章主要介紹了如何讓python把數(shù)據(jù)框?qū)懭隡ySQL,下文利用上海市2016年9月1日公共交通卡刷卡數(shù)據(jù)的一份數(shù)據(jù)單展開其方法,需要的小伙伴可以參考一下2022-03-03
Python 點(diǎn)集排序之帶索引的Z字形排序算法實(shí)現(xiàn)代碼
這篇文章介紹了如何使用Python在Grasshopper中實(shí)現(xiàn)點(diǎn)集排序功能,包括點(diǎn)的Y坐標(biāo)分組和X坐標(biāo)排序,以及追蹤每個點(diǎn)的原始索引位置,通過創(chuàng)建點(diǎn)索引對、分組邏輯和排序,實(shí)現(xiàn)了Z字形排序算法,感興趣的朋友一起看看吧2025-01-01
在PyCharm中高效使用遠(yuǎn)程文件編輯功能的實(shí)現(xiàn)
PyCharm作為業(yè)界領(lǐng)先的集成開發(fā)環(huán)境(IDE),提供了強(qiáng)大的本地和遠(yuǎn)程開發(fā)功能,本文詳細(xì)介紹了如何在PyCharm中使用遠(yuǎn)程文件編輯功能,希望能夠幫助你提高遠(yuǎn)程開發(fā)的效率和體驗(yàn)2024-08-08

