python爬蟲lxml庫解析xpath網(wǎng)頁過程示例
前言
在我們抓取網(wǎng)頁內(nèi)容的時候,通常是抓取一整個頁面的內(nèi)容,而我們僅僅只是需要該網(wǎng)頁中的部分內(nèi)容,那該如何去提取呢?本章就帶你學(xué)習(xí)xpath插件的使用。去對網(wǎng)頁的內(nèi)容進(jìn)行提取。
(一)xpath是什么
xpath是一門在XML文檔中查找信息的語言,xpath可用來在XML 文檔中對元素和屬性進(jìn)行遍歷,主流的瀏覽器都支持xpath,因為html頁面在DOM中表示為XHTML文檔。
xpath語言是基于XML文檔的樹結(jié)構(gòu),并提供了瀏覽樹的能力,通過多樣的標(biāo)準(zhǔn)來選擇節(jié)點。從而找到我們想要的數(shù)據(jù)。
首先我們需要在chrome瀏覽器中安裝xpath插件。
可以到谷歌應(yīng)用商店搜索下載。

安裝好之后重啟瀏覽器按下快捷鍵Ctrl +Shift+X網(wǎng)頁上會出現(xiàn)黑色的框就表示成功啦!
(二)xpath的基本語法 路徑查詢。
// : 查找所有子孫節(jié)點,不考慮層級關(guān)系
/ : 找直接子節(jié)點
謂詞查詢
//div[@id]
//div[@id=“maincontent”]
屬性查詢
//@class
模糊查詢
//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]
內(nèi)容查詢
//div/h1/text()
(三) lxml庫
lxml是python的一個解析庫,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
在使用前我們需要在pycharm里安裝lxml庫。
在終端輸入指令即可:
pip install lxml -i https://pypi.douban.com/simple
注意:必須安裝在我們當(dāng)前所使用的環(huán)境下
(四)lxml庫的使用 導(dǎo)入lxml.etree
from lxml import etree
解析本地文件
tree = etree.parse(xxx.html) #解析本地文件
解析服務(wù)器響應(yīng)文件
tree = etree.HTML(content) #解析網(wǎng)頁文件
返回結(jié)果
result = tree.xpath('//div/div/@aria-label')[0]注:xpath返回的結(jié)果類型為列表,當(dāng)結(jié)果有許多值時我們可以使用下標(biāo)來取我們想要的值。
(五)實例演示
import urllib.request
from lxml import etree
import urllib.parse
url ='https://www.baidu.com/s?'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
cre_data = {
'wd' : '這里寫關(guān)鍵詞'
}
data = urllib.parse.urlencode(cre_data)
url = url + data
request = urllib.request.Request(url = url , headers = headers )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
# tree = etree.parse(xxx.html) #解析本地文件
tree = etree.HTML(content) #解析網(wǎng)頁文件
result = tree.xpath('//div/div/@aria-label')[0]
print(result)
以上就是python爬蟲lxml庫解析xpath網(wǎng)頁過程示例的詳細(xì)內(nèi)容,更多關(guān)于python爬蟲lxml庫解析xpath網(wǎng)頁的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python 中pyqt5 樹節(jié)點點擊實現(xiàn)多窗口切換問題
這篇文章主要介紹了python 中pyqt5 樹節(jié)點點擊實現(xiàn)多窗口切換問題,文中給大家介紹了python pyqt5 點擊按鈕來打開另一個窗口的方法,本文通過實例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒借鑒價值,需要的朋友可以參考下2019-07-07
通過Python的gtts庫將文字轉(zhuǎn)為音頻的操作方法
文字轉(zhuǎn)音頻可以幫助視覺障礙者通過聽取聲音來獲取信息,也可以幫助人們方便地聽取一些長篇文章或?qū)W習(xí)資料,節(jié)省閱讀時間和疲勞,這篇文章主要介紹了通過Python的gtts庫將文字轉(zhuǎn)為音頻的方法,需要的朋友可以參考下2023-05-05
使用 NumPy 和 Matplotlib 繪制函數(shù)圖
Matplotlib 是 Python 的繪圖庫。 它可與 NumPy 一起使用,提供了一種有效的 MatLab 開源替代方案。 它也可以和圖形工具包一起使用,如 PyQt 和 wxPython2021-09-09

