python爬蟲xpath模塊簡介示例代碼
一、前言
前兩篇博客講解了爬蟲解析網(wǎng)頁數(shù)據(jù)的兩種常用方法,re正則表達(dá)解析和beautifulsoup標(biāo)簽解析,所以今天的博客將圍繞另外一種數(shù)據(jù)解析方法,它就是xpath模塊解析,話不多說,進(jìn)入內(nèi)容:
二、簡介
XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷。XPath 是 W3C XSLT 標(biāo)準(zhǔn)的主要元素,并且 XQuery 和 XPointer 都構(gòu)建于 XPath 表達(dá)之上。
XPath即為XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。
xpath是最常用且最便捷高效的一種解析方式,通用型強(qiáng),其不僅可以用于python語言中,還可以用于其他語言中,數(shù)據(jù)解析建議首先xpath。
三、安裝
pip3 install lxml
四、使用
1、導(dǎo)入
from?lxml?import?etree
2、基本使用
實(shí)例化一個etree的對象,且需要將被解析的頁面源代碼數(shù)據(jù)加載到該對象中
調(diào)用etree對象中的xpath方法結(jié)合著xpath表達(dá)式實(shí)現(xiàn)標(biāo)簽的定位和內(nèi)容的捕獲
from lxml import etree
tree = etree.parse('./tree.html') #從本地加載源碼,實(shí)例化一個etree對象。必須是本地的文件,不能是字符串
tree = etree.HTML(源碼) #從互聯(lián)網(wǎng)加載源碼,實(shí)例化etree對象
# / 表示從從根節(jié)點(diǎn)開始,一個 / 表示一個層級,//表示多個層級
r = tree.xpath('//div//a') #以列表的形式返回div下的所有的a標(biāo)簽對象的地址
r = tree.xpath('//div//a')[1] #返回div下的第二個a標(biāo)簽對象地址
r = tree.xpath('//div[@class="tang"]') #以列表的形式返回tang標(biāo)簽地址
r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang標(biāo)簽下所有的a標(biāo)簽地址
#獲取標(biāo)簽中的文本內(nèi)容
r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a標(biāo)簽中的文本
#獲取標(biāo)簽中屬性值
r = tree.xpath('//div//a/@href') ##以列表的形式返回所有a標(biāo)簽中href屬性值3、基本使用
from lxml import etree
wb_data = """
<div>
<ul>
<li><a href="link1.html" rel="external nofollow" rel="external nofollow" >first item</a></li>
<li><a href="link2.html" rel="external nofollow" rel="external nofollow" >second item</a></li>
<li><a href="link3.html" rel="external nofollow" rel="external nofollow" >third item</a></li>
<li><a href="link4.html" rel="external nofollow" rel="external nofollow" >fourth item</a></li>
<li><a href="link5.html" rel="external nofollow" rel="external nofollow" >fifth item</a>
</ul>
</div>
"""
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))從下面的結(jié)果來看,我們打印機(jī)html其實(shí)就是一個python對象,etree.tostring(html)則是補(bǔ)全html的基本寫法,補(bǔ)全了缺胳膊少腿的標(biāo)簽。
<Element html at 0x39e58f0>
<html><body><div>
<ul>
<li><a href="link1.html" rel="external nofollow" rel="external nofollow" >first item</a></li>
<li><a href="link2.html" rel="external nofollow" rel="external nofollow" >second item</a></li>
<li><a href="link3.html" rel="external nofollow" rel="external nofollow" >third item</a></li>
<li><a href="link4.html" rel="external nofollow" rel="external nofollow" >fourth item</a></li>
<li><a href="link5.html" rel="external nofollow" rel="external nofollow" >fifth item</a>
</li></ul>
</div>
</body></html>3、獲取某個標(biāo)簽的內(nèi)容(基本使用),注意,獲取a標(biāo)簽的所有內(nèi)容,a后面就不用再加正斜杠,否則報(bào)錯。
寫法一
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a')
print(html)
for i in html_data:
print(i.text)
# 打印結(jié)果如下:
<Element html at 0x12fe4b8>
first item
second item
third item
fourth item
fifth item寫法二(直接在需要查找內(nèi)容的標(biāo)簽后面加一個/text()就行)
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
print(html)
for i in html_data:
print(i)
# 打印結(jié)果如下:
<Element html at 0x138e4b8>
first item
second item
third item
fourth item
fifth item4、打開讀取html文件
#使用parse打開html的文件
html = etree.parse('test.html')
html_data = html.xpath('//*')<br>#打印是一個列表,需要遍歷
print(html_data)
for i in html_data:
print(i.text)html = etree.parse('test.html')
html_data = etree.tostring(html,pretty_print=True)
res = html_data.decode('utf-8')
print(res)
?
打?。?
<div>
? ? ?<ul>
? ? ? ? ?<li><a href="link1.html">first item</a></li>
? ? ? ? ?<li><a href="link2.html">second item</a></li>
? ? ? ? ?<li><a href="link3.html">third item</a></li>
? ? ? ? ?<li><a href="link4.html">fourth item</a></li>
? ? ? ? ?<li><a href="link5.html">fifth item</a></li>
? ? ?</ul>
</div>5、打印指定路徑下a標(biāo)簽的屬性(可以通過遍歷拿到某個屬性的值,查找標(biāo)簽的內(nèi)容)
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/@href')
for i in html_data:
? ? print(i)
?
打?。?
link1.html
link2.html
link3.html
link4.html
link5.html6、我們知道我們使用xpath拿到得都是一個個的ElementTree對象,所以如果需要查找內(nèi)容的話,還需要遍歷拿到數(shù)據(jù)的列表。
查到絕對路徑下a標(biāo)簽屬性等于link2.html的內(nèi)容。
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['second item']
second item7、上面我們找到全部都是絕對路徑(每一個都是從根開始查找),下面我們查找相對路徑,例如,查找所有l(wèi)i標(biāo)簽下的a標(biāo)簽內(nèi)容。
html = etree.HTML(wb_data)
html_data = html.xpath('//li/a/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['first item', 'second item', 'third item', 'fourth item', 'fifth item']
first item
second item
third item
fourth item
fifth item8、上面我們使用絕對路徑,查找了所有a標(biāo)簽的屬性等于href屬性值,利用的是/—絕對路徑,下面我們使用相對路徑,查找一下l相對路徑下li標(biāo)簽下的a標(biāo)簽下的href屬性的值,注意,a標(biāo)簽后面需要雙//。
html = etree.HTML(wb_data)
html_data = html.xpath('//li/a//@href')
print(html_data)
for i in html_data:
? ? print(i)
?
打印:
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
link1.html
link2.html
link3.html
link4.html
link5.html9、相對路徑下跟絕對路徑下查特定屬性的方法類似,也可以說相同。
html = etree.HTML(wb_data)
html_data = html.xpath('//li/a[@href="link2.html"]')
print(html_data)
for i in html_data:
? ? print(i.text)
?
打?。?
[<Element a at 0x216e468>]
second item10、查找最后一個li標(biāo)簽里的a標(biāo)簽的href屬性
html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()]/a/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打印:
['fifth item']
fifth item11、查找倒數(shù)第二個li標(biāo)簽里的a標(biāo)簽的href屬性
html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()-1]/a/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['fourth item']
fourth item五、案例
案例1:獲取58商城房價單位:
import requests
from lxml import etree
url = "https://bj.58.com/ershoufang/p1/"
headers={
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_response = requests.get(url,headers=headers,timeout=3).text
#實(shí)例化一個etree對象
tree = etree.HTML(pag_response)
r = tree.xpath('//span[@class="content-title"]/text()') #獲取所有//span標(biāo)簽為"content-title"的文本內(nèi)容,列表形式
with open("58房價.txt",mode="w",encoding="utf-8") as fp:
for r_list in r:
fp.writelines(str(r_list))
print(r_list)
案例2:獲取豆瓣top榜電影信息(這個是老生常談的話題了)
import re
from time import sleep
import requests
from lxml import etree
import random
import csv
def main(page,f):
url = f'https://movie.douban.com/top250?start={page*25}&filter='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36',}
resp = requests.get(url,headers=headers)
tree = etree.HTML(resp.text)
# 獲取詳情頁的鏈接列表
href_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/@href')
# 獲取電影名稱列表
name_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')
for url,name in zip(href_list,name_list):
f.flush() # 刷新文件
try:
get_info(url,name) # 獲取詳情頁的信息
except:
pass
sleep(1 + random.random()) # 休息
print(f'第{i+1}頁爬取完畢')
def get_info(url,name):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36',
'Host': 'movie.douban.com',
}
resp = requests.get(url,headers=headers)
html = resp.text
tree = etree.HTML(html)
# 導(dǎo)演
dir = tree.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0]
# 電影類型
type_ = re.findall(r'property="v:genre">(.*?)</span>',html)
type_ = '/'.join(type_)
# 國家
country = re.findall(r'地區(qū):</span> (.*?)<br',html)[0]
# 上映時間
time = tree.xpath('//*[@id="content"]/h1/span[2]/text()')[0]
time = time[1:5]
# 評分
rate = tree.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/strong/text()')[0]
# 評論人數(shù)
people = tree.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/div/div[2]/a/span/text()')[0]
print(name,dir,type_,country,time,rate,people) # 打印結(jié)果
csvwriter.writerow((name,dir,type_,country,time,rate,people)) # 保存到文件中
if __name__ == '__main__':
# 創(chuàng)建文件用于保存數(shù)據(jù)
with open('03-movie-xpath.csv','a',encoding='utf-8',newline='')as f:
csvwriter = csv.writer(f)
# 寫入表頭標(biāo)題
csvwriter.writerow(('電影名稱','導(dǎo)演','電影類型','國家','上映年份','評分','評論人數(shù)'))
for i in range(10): # 爬取10頁
main(i,f) # 調(diào)用主函數(shù)
sleep(3 + random.random())

到此這篇關(guān)于python爬蟲xpath模塊簡介的文章就介紹到這了,更多相關(guān)python xpath模塊內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python利用PyPDF2庫實(shí)現(xiàn)輕松提取PDF文本
ython中的PyPDF2庫是一個非常有用的工具,無論您是需要分析PDF文檔中的內(nèi)容還是需要在文檔中搜索特定的信息,PyPDF2都可以幫助您輕松實(shí)現(xiàn)這些任務(wù),下面我們就來學(xué)習(xí)一下如何利用PyPDF2提取PDF文本吧2023-09-09
python requests庫爬取豆瓣電視劇數(shù)據(jù)并保存到本地詳解
這篇文章主要介紹了python requests庫爬取豆瓣電視劇數(shù)據(jù)并保存到本地詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-08-08
tensorflow之變量初始化(tf.Variable)使用詳解
今天小編就為大家分享一篇tensorflow之變量初始化(tf.Variable)使用詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02
通過Python實(shí)現(xiàn)一個A/B測試詳解
A/B測試,通過分析兩種不同的營銷策略,以此來選擇最佳的營銷策略,可以高效地將流量轉(zhuǎn)化為銷售額。本文主要介紹了如何通過Python實(shí)現(xiàn)一個A/B測試,感興趣的可以了解一下2023-01-01
淺談Pycharm中的Python Console與Terminal
今天小編就為大家分享一篇淺談Pycharm中的Python Console與Terminal,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01
利用Python實(shí)現(xiàn)QQ實(shí)時到賬免簽支付功能
這篇文章主要介紹了利用Python實(shí)現(xiàn)QQ實(shí)時到賬免簽支付功能,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-03-03

