Python lxml解析HTML并用xpath獲取元素的方法
更新時(shí)間:2019年01月02日 10:12:27 作者:lilongsy
今天小編就為大家分享一篇Python lxml解析HTML并用xpath獲取元素的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
代碼
使用方法見注釋
#-*- coding: UTF-8 -*-
from lxml import etree
source = u'''
<div><p class="p1" data-a="1">測試數(shù)據(jù)1</p>
<p class="p1" data-a="2">測試數(shù)據(jù)2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">測試數(shù)據(jù)3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
圖片</p>
'''
# 從字符串解析
page = etree.HTML(source)
# 元素列表
ps = page.xpath("http://p")
for p in ps:
print u"屬性:%s" % p.attrib
print u"文本:%s" % p.text
# 文本列表
ts = page.xpath("http://p/text()")
for t in ts:
print t
# xpath定位
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
print l.attrib
以上這篇Python lxml解析HTML并用xpath獲取元素的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python爬蟲:url中帶字典列表參數(shù)的編碼轉(zhuǎn)換方法
今天小編就為大家分享一篇Python爬蟲:url中帶字典列表參數(shù)的編碼轉(zhuǎn)換方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08
pygame實(shí)現(xiàn)俄羅斯方塊游戲(基礎(chǔ)篇2)
這篇文章主要為大家介紹了pygame實(shí)現(xiàn)俄羅斯方塊游戲基礎(chǔ)的第2篇,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-10-10
解決win64 Python下安裝PIL出錯(cuò)問題(圖解)
這篇文章主要介紹了解決win64 Python下安裝PIL出錯(cuò)問題,文中的解決方法也很簡單,需要的朋友參考下吧2018-09-09
淺談python裝飾器探究與參數(shù)的領(lǐng)取
下面小編就為大家分享一篇淺談python裝飾器探究與參數(shù)的領(lǐng)取,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2017-12-12
如何使用python的xml庫實(shí)現(xiàn)自閉合標(biāo)簽
文章介紹了作者編寫一個(gè)URDF格式化插件的初衷,目的是解決sw2urdf導(dǎo)出的URDF文件格式混亂的問題,本文結(jié)合實(shí)例代碼給大家介紹的非常詳細(xì),感興趣的朋友一起看看吧2025-01-01

