python lxml中etree的簡單應(yīng)用

更新時間：2019年05月10日 15:25:42 作者：鍋爐房劉大爺

這篇文章主要介紹了python lxml中etree的簡單應(yīng)用，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

我一般都是通過xpath解析DOM樹的時候會使用lxml的etree，可以很方便的從html源碼中得到自己想要的內(nèi)容。

這里主要介紹一下我常用到的兩個方法，分別是etree.HTML()和etree.tostrint()。

1.etree.HTML()

etree.HTML()可以用來解析字符串格式的HTML文檔對象，將傳進(jìn)去的字符串轉(zhuǎn)變成_Element對象。作為_Element對象，可以方便的使用getparent()、remove()、xpath()等方法。

如果想通過xpath獲取html源碼中的內(nèi)容，就要先將html源碼轉(zhuǎn)換成_Element對象，然后再使用xpath()方法進(jìn)行解析。例如，這里有一段最簡單的html源碼："<html><body><h1>This is a test</h1></body></html>"，現(xiàn)在想要得到h1標(biāo)簽中的文本，可以這樣實(shí)現(xiàn)：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This is a test</h1></body></html>'
# 將html轉(zhuǎn)換成_Element對象
_element = etree.HTML(html)
# 通過xpath表達(dá)式獲取h1標(biāo)簽中的文本
text = _element.xpath('//h1/text()')
print 'result is: ', text

結(jié)果：

result is: ['This is a test']

通過結(jié)果可以知道，xpath()方法放回的結(jié)果是一個列表，所以通常在取xpath()方法結(jié)果的時候，只取列表中的第一個元素。

2.etree.tostring()

etree.tostring()方法用來將_Element對象轉(zhuǎn)換成字符串。一般通過簡單的xpath表達(dá)式無法得到想要的內(nèi)容的時候我就會用該方法。例如，將上面的html小改動一下："<html><body><h1>This <a>is a </a>test</h1></body></html>"，這時候如果想要得到h1中的文本該怎么辦呢？使用“//h1/text()”試試（將上面的html保存并用火狐瀏覽器打開，然后在FirePath中輸入該xpath表達(dá)式）：

通過截圖左下角的提示可以知道，使用xpath表達(dá)式“//h1/text()”只能得到h1標(biāo)簽中文本的“This”和“test”，用代碼實(shí)現(xiàn)看看：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1/text()')
print 'result is: ', text

運(yùn)行結(jié)果：

result is: ['This ', 'test']

確實(shí)，使用xpath()方法，只能得到h1中部分文本內(nèi)容，我們再試試使用“//h1//text()”看看：

然后通過代碼實(shí)現(xiàn)看看：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1//text()')
print 'result is: ', text

運(yùn)行結(jié)果：

result is: ['This ', 'is a ', 'test']

通過“//h1//text()”表達(dá)式確實(shí)可以得到想要的內(nèi)容，但是得到的是一個列表，還需要將列表中的所有元素“拼”起來才行，是不是有點(diǎn)麻煩。這時候，就可以考慮使用etree.tostring()方法了，etree.tostring()方法可以傳遞多個參數(shù)，包括element_or_tree、encoding、method等，其中method參數(shù)為text的時候，表示返回_Element對象中的所有文本，所以可以這樣：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
# 先找到h1對象，然后通過etree.tostring方法找到h1對象中的所有文本
_h = _element.xpath('//h1')
# 注意，xpath方法返回的是一個列表，我們需要的是列表中的第一個元素：代表h1標(biāo)簽的_Element對象
result = etree.tostring(_h[0], method='text')
print 'result is: ', result

運(yùn)行結(jié)果：