python數(shù)據(jù)解析之XPath詳解
XPath
XPath即為XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。
xpath是最常用且最便捷高效的一種解析方式,通用型強(qiáng),其不僅可以用于python語言中,還可以用于其他語言中,數(shù)據(jù)解析建議首先xpath。
XPath使用方法
xpath解析原理:
實(shí)例化一個(gè)etree的對象,且需要將被解析的頁面源代碼數(shù)據(jù)加載到該對象中
調(diào)用etree對象中的xpath方法結(jié)合著xpath表達(dá)式實(shí)現(xiàn)標(biāo)簽的定位和內(nèi)容的捕獲
安裝lxml
pip install -i https://mirrors.aliyun.com/pypi/simple/ lxml
from lxml import etree
tree = etree.parse('./tree.html') #從本地加載源碼,實(shí)例化一個(gè)etree對象。必須是本地的文件,不能是字符串
tree = etree.HTML(源碼) #從互聯(lián)網(wǎng)加載源碼,實(shí)例化etree對象
# / 表示從從根節(jié)點(diǎn)開始,一個(gè) / 表示一個(gè)層級,//表示多個(gè)層級
r = tree.xpath('//div//a') #以列表的形式返回div下的所有的a標(biāo)簽對象的地址
r = tree.xpath('//div//a')[1] #返回div下的第二個(gè)a標(biāo)簽對象地址
r = tree.xpath('//div[@class="tang"]') #以列表的形式返回tang標(biāo)簽地址
r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang標(biāo)簽下所有的a標(biāo)簽地址
#獲取標(biāo)簽中的文本內(nèi)容
r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a標(biāo)簽中的文本
#獲取標(biāo)簽中屬性值
r = tree.xpath('//div//a/@href') ##以列表的形式返回所有a標(biāo)簽中href屬性值
tree.html
<html lang="en">
<head>
<meta charset="utf-8" />
<meta name="theme-color" content="#ffffff"></meta>
<title>xpaht測試</title>
</head>
<body>
<div>
<p>百里守約</p>
</div>
<div class="song">
<p>前程似錦</p>
</div>
<div class="song">
<p>前程似錦2</p>
</div>
<div class="ming"> #后面改了名字
<p>以夢為馬</p>
</div>
<div class="tang">
<ul>
<li><a title='qing'>清明時(shí)節(jié)</a></li>
<li><a title='qing'>秦時(shí)明月</a></li>
<li><a title='qing'>漢時(shí)關(guān)</a></li>
</ul>
</div>
<flink-root></flink-root>
<script type="text/javascript" src="runtime.0dcf16aad31edd73d8e8.js"></script>
<script type="text/javascript" src="es2015-polyfills.923637a8e6d276e6f6df.js"></script>
<script type="text/javascript" src="polyfills.bb2456cce5322b484b77.js"></script>
<script type="text/javascript" src="main.8128365baee3dc30e607.js"></script>
</body>
</html>
案例—58二手房
將頁面中的房源名稱解析出來,即將title值解析出來就行

思路
- 獲取房源名稱所在的url,并獲取其響應(yīng)數(shù)據(jù)
- 數(shù)據(jù)解析,構(gòu)造xpath表達(dá)式。提取目標(biāo)數(shù)據(jù)
import requests
from lxml import etree
url = "https://bj.58.com/ershoufang/p1/"
headers={
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_response = requests.get(url,headers=headers,timeout=3).text
#實(shí)例化一個(gè)etree對象
tree = etree.HTML(pag_response)
r = tree.xpath('//span[@class="content-title"]/text()') #獲取所有//span標(biāo)簽為"content-title"的文本內(nèi)容
print(r)
Tips:我們使用xpath進(jìn)行數(shù)據(jù)解析時(shí),不能直接看元素就進(jìn)行構(gòu)造xpath表達(dá)式,以為很多情況下從瀏覽中看的元素結(jié)構(gòu)和爬取下來的源碼結(jié)構(gòu)不一樣。所以正確方法是先將源碼爬下來再觀察進(jìn)行構(gòu)造xpath。
如下瀏覽器中的元素結(jié)構(gòu)和爬取的元素結(jié)構(gòu)就不一樣。如果按照瀏覽器匯總的元素來構(gòu)造xpath表達(dá)式,則不會解析成功!

總結(jié)
本篇文章就到這里了,希望能夠給你帶來幫助,也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!
相關(guān)文章
python使用PyPDF2 和 pdfplumber操作PDF文件
本文主要介紹了Python中用于操作PDF的兩個(gè)庫:PyPDF2和pdfplumber,下面就來具體介紹一下兩個(gè)庫的使用方法,具有一定的參考價(jià)值,感興趣的可以了解一下2025-01-01
Python實(shí)現(xiàn)發(fā)票自動校核微信機(jī)器人的方法
這篇文章主要介紹了Python實(shí)現(xiàn)發(fā)票自動校核微信機(jī)器人的方法,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-05-05
Python 3.x基礎(chǔ)實(shí)戰(zhàn)檢查磁盤可用空間
這篇文章主要為大家介紹了Python 3.x基礎(chǔ)實(shí)戰(zhàn)之檢查磁盤可用空間實(shí)現(xiàn),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-05-05
一條命令解決mac版本python IDLE不能輸入中文問題
本文通過一條命令幫助大家解決mac版本python IDLE無法輸入中文問題,需要的朋友可以參考下2018-05-05
Python單元測試框架unittest簡明使用實(shí)例
這篇文章主要介紹了Python單元測試框架unittest簡明使用實(shí)例,本文講解了基本測試步驟、和測試實(shí)例,需要的朋友可以參考下2015-04-04
PyCharm中的terminal運(yùn)行從PS修改成cmd方式
這篇文章主要介紹了PyCharm中的terminal運(yùn)行從PS修改成cmd方式,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-06-06

