Python Scrapy多頁(yè)數(shù)據(jù)爬取實(shí)現(xiàn)過(guò)程解析
1.先指定通用模板
url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
pageNum = 1
2.對(duì)parse方法遞歸處理
parse第一次調(diào)用表示的是用來(lái)解析第一頁(yè)對(duì)應(yīng)頁(yè)面中的數(shù)據(jù)
對(duì)后面的頁(yè)碼的數(shù)據(jù)要進(jìn)行手動(dòng)發(fā)送
if self.pageNum <= 5: self.pageNum += 1 new_url = format(self.url%self.pageNum) #手動(dòng)請(qǐng)求(get)的發(fā)送 yield scrapy.Request(new_url,callback=self.parse)
完整示例
class QiubaiSpider(scrapy.Spider):
name = 'qiubai'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.qiushibaike.com/text/']
url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
pageNum = 1
#parse第一次調(diào)用表示的是用來(lái)解析第一頁(yè)對(duì)應(yīng)頁(yè)面中的段子內(nèi)容和作者
def parse(self, response):
div_list = response.xpath('//*[@id="content-left"]/div')
all_data = []
for div in div_list:
author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()
content = div.xpath('./a[1]/div/span//text()').extract()
content = ''.join(content)
# 將解析的數(shù)據(jù)存儲(chǔ)到item對(duì)象
item = QiubaiproItem()
item['author'] = author
item['content'] = content
# 將item提交給管道
yield item # item一定是提交給了優(yōu)先級(jí)最高的管道類(lèi)
if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url%self.pageNum)
#手動(dòng)請(qǐng)求(get)的發(fā)送
yield scrapy.Request(new_url,callback=self.parse)
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python Scrapy框架:通用爬蟲(chóng)之CrawlSpider用法簡(jiǎn)單示例
- python網(wǎng)絡(luò)爬蟲(chóng) CrawlSpider使用詳解
- 簡(jiǎn)述python Scrapy框架
- 詳解Python的爬蟲(chóng)框架 Scrapy
- Python爬蟲(chóng)實(shí)例——scrapy框架爬取拉勾網(wǎng)招聘信息
- Python scrapy爬取小說(shuō)代碼案例詳解
- python3 Scrapy爬蟲(chóng)框架ip代理配置的方法
- python scrapy爬蟲(chóng)代碼及填坑
- Python爬蟲(chóng)Scrapy框架CrawlSpider原理及使用案例
相關(guān)文章
PyQt5.6+pycharm配置以及pyinstaller生成exe(小白教程)
這篇文章主要介紹了PyQt5.6+pycharm配置以及pyinstaller生成exe,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-06-06
實(shí)例詳解Python中的numpy.abs和abs函數(shù)
Numpy是python中最有用的工具之一,它可以有效地處理大容量數(shù)據(jù),下面這篇文章主要給大家介紹了關(guān)于Python中numpy.abs和abs函數(shù)的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-08-08
opencv python簡(jiǎn)易文檔之圖像處理算法
OpenCV是一個(gè)開(kāi)源庫(kù),包含了許多計(jì)算機(jī)視覺(jué)算法,它在計(jì)算機(jī)視覺(jué)和圖像處理中起著重要作用,用于實(shí)時(shí)操作,其效率足以滿足工業(yè)上的要求,這篇文章主要給大家介紹了關(guān)于opencv python簡(jiǎn)易文檔之圖像處理算法的相關(guān)資料,需要的朋友可以參考下2021-08-08
Python 實(shí)現(xiàn)在文件中的每一行添加一個(gè)逗號(hào)
下面小編就為大家分享一篇Python 實(shí)現(xiàn)在文件中的每一行添加一個(gè)逗號(hào),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04
python中import和from-import的區(qū)別解析
這篇文章主要介紹了python中import和from-import的區(qū)別解析,本文通過(guò)實(shí)例代碼給大家講解的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-12-12
matplotlib.pyplot.matshow 矩陣可視化實(shí)例
這篇文章主要介紹了matplotlib.pyplot.matshow 矩陣可視化實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-06-06
python之生產(chǎn)者消費(fèi)者模型實(shí)現(xiàn)詳解
這篇文章主要介紹了python之生產(chǎn)者消費(fèi)者模型實(shí)現(xiàn)詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-07-07

