Scrapy元素選擇器Xpath用法匯總

更新時(shí)間：2021年03月23日 11:24:09 作者：思維之上

這篇文章主要介紹了Scrapy元素選擇器Xpath用法匯總，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

眾所周知，在設(shè)計(jì)爬蟲(chóng)時(shí)，最麻煩的一步就是對(duì)網(wǎng)頁(yè)元素進(jìn)行分析，目前流行的網(wǎng)頁(yè)元素獲取的工具有BeautifulSoup，lxml等，而據(jù)我使用的體驗(yàn)而言，Scrapy的元素選擇器Xpath（結(jié)合正則表達(dá)式）是其中較為出色的一種（個(gè)人認(rèn)為最好啦，當(dāng)然只能在Scrapy中使用）功能相對(duì)較全、使用較為方便，正因?yàn)樗呢S富性，有時(shí)很多功能會(huì)忘記，所以在這里整理好記錄下來(lái)，方便今后查閱使用。

1. 元素的多級(jí)定位與跳級(jí)定位

多級(jí)定位：依靠html中的多級(jí)元素逐步縮小范圍

response.xpath('//table/tbody/tr/td')

//如果知道元素所屬的下標(biāo)可以用下標(biāo)選擇
response.xpath('//table/tbody/tr[1]/td')

跳級(jí)定位：符號(hào)“//”表示跳級(jí)定位，即對(duì)當(dāng)前元素的所有層數(shù)的子元素（不僅是第一層子元素）進(jìn)行查找，一般xpath的開(kāi)頭都是跳級(jí)定位

response.xpath('//span//table')

2. 依靠元素的屬性定位

每個(gè)html元素都有很多屬性，如id、class、title、href、text(href和text往往可以配合正則表達(dá)式）等，這些屬性往往具有很強(qiáng)的特殊性，結(jié)合元素多級(jí)定位或跳級(jí)定位會(huì)更準(zhǔn)確高效，下面舉幾個(gè)典型的例子，其他的舉一反三

利用class定位

response.xpath('//td[@class="mc_content"]')

利用href配合正則表達(dá)式定位

response.xpath('//a[re:test(@href,"^\/index\.php\?m=News&a=details&id=1&NewsId=\d{1,4}")]')

利用text結(jié)合正則表達(dá)式定位

a=response.xpath('//a[re:test(text(),"\w{4}")]')

此外，xpath還有對(duì)于html元素操作的兩個(gè)實(shí)用的函數(shù)（可以用正則表達(dá)式代替）——starts-with和contains；

a=response.xpath('//a[starts-with(@title,"注冊(cè)時(shí)間")]')

a=response.xpath('//a[contains(text(),"聞")]')

3. 提取元素或元素的屬性值

首先是最基本的extract()函數(shù)，提取被定為的元素對(duì)象

a=response.xpath('//a[contains(text(),"聞")]').extract()

//如果被定為的元素對(duì)象有多個(gè)，可以有用下標(biāo)指定
a=response.xpath('//a[contains(text(),"聞")]').extract()[1]

提取元素的屬性

//提取text
a=response.xpath('//a[contains(text(),"聞")]/text()').extract()

//獲取href
a=response.xpath('//a[contains(text(),"聞")]/@href').extract()

//獲取name
a=response.xpath('//a[contains(text(),"聞")]/@name').extract()

此時(shí)我們的正則表達(dá)式又閑不住了（scrapy自帶的函數(shù)），可以對(duì)提取的元素進(jìn)行選擇

//對(duì)href中的部分字符串進(jìn)行選擇
response.xpath('//a[@name="_l_p_n"]/@href').re('\/s.*?list\.htm')

在這里關(guān)于xpath的所有用法基本總結(jié)完畢，只是由于xpath是對(duì)靜態(tài)元素進(jìn)行匹配選擇，對(duì)于javascript往往束手無(wú)策，這時(shí)不得不用一個(gè)自動(dòng)化測(cè)試工具——selenium，可以實(shí)現(xiàn)各種動(dòng)態(tài)事件和靜態(tài)元素的選擇，只是selenium往往比較吃?xún)?nèi)存，響應(yīng)時(shí)間也比較慢，對(duì)于大型的爬蟲(chóng)任務(wù)盡量不要使用，畢竟有一些javascript元素是內(nèi)嵌在網(wǎng)頁(yè)代碼中的，這時(shí)候結(jié)合萬(wàn)能的正則表達(dá)式，xpath往往能夠?qū)崿F(xiàn)。如下：

link = re.search("javascript:goToPage\('(.*?)'", value) //value為包含該段的字符串

到此這篇關(guān)于Scrapy元素選擇器Xpath用法匯總的文章就介紹到這了,更多相關(guān)Scrapy元素選擇器Xpath 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Scrapy
Xpath

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Scrapy元素選擇器Xpath用法匯總

1. 元素的多級(jí)定位與跳級(jí)定位

2. 依靠元素的屬性定位

3. 提取元素或元素的屬性值

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Scrapy元素選擇器Xpath用法匯總

1. 元素的多級(jí)定位與跳級(jí)定位

2. 依靠元素的屬性定位

3. 提取元素或元素的屬性值

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕