python爬蟲框架scrapy下載中間件的編寫方法
下載中間件
在每一個(gè)scrapy工程中都有一個(gè)名為 middlewares.py 的文件,這個(gè)就是中間件文件
其中下載中間件的類為 XxxDownloaderMiddleware
其中有這么幾個(gè)方法
def process_request(self, request, spider): return None
def process_response(self, request, response, spider): return response
def process_exception(self, request, exception, spider): pass
process_request
這個(gè)方法是用來(lái)攔截請(qǐng)求的,我們可以將UA偽裝寫在這個(gè)方法中。
UA池這個(gè)屬性需要自己編寫
def process_request(self, request, spider):
# UA偽裝,從UA池隨機(jī)一個(gè)
request.headers['User-Agent'] = random.choice(self.user_agent_list)
return Noneprocess_response
這個(gè)方法是用來(lái)攔截響應(yīng)的,我們可以在這里篡改響應(yīng)數(shù)據(jù)。
如果我們將selenium和scrapy結(jié)合就可以請(qǐng)求那些動(dòng)態(tài)加載的數(shù)據(jù)了。
def process_response(self, request, response, spider):
# 瀏覽器對(duì)象
bro = spider.bro
# 參數(shù)spider是爬蟲對(duì)象
# 挑選出指定響應(yīng)對(duì)象進(jìn)行篡改url->request->response
bro.get(request.url)
page_text = bro.page_source # 包含了動(dòng)態(tài)加載的數(shù)據(jù)
# 針對(duì)定位到的response篡改
# 實(shí)例化新的響應(yīng)對(duì)象(包含動(dòng)態(tài)加載的數(shù)據(jù))
response = HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request)
return response在爬蟲文件中需要預(yù)先創(chuàng)建selenium的瀏覽器對(duì)象
import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions
class XxxSpider(scrapy.Spider):
name = 'xxx'
# allowed_domains = ['www.xxx.com']
start_urls = ['……']
def __init__(self):
service = Service('/Users/soutsukyou/PyCharm_Workspace/網(wǎng)絡(luò)爬蟲/study_selenium/chromedriver')
chrome_options = ChromeOptions()
# 規(guī)避檢測(cè)
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 實(shí)例化瀏覽器
self.bro = webdriver.Chrome(service=service, options=chrome_options)process_exception
這是用來(lái)攔截發(fā)生異常的請(qǐng)求對(duì)象,一般我們可以在這里寫代理ip。
兩個(gè)代理ip池屬性需要自己編寫
def process_exception(self, request, exception, spider):
# 可以設(shè)置代理ip
if request.url.split(':')[0] == 'http':
request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
if request.url.split(':')[0] == 'https':
request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https)
# 重新請(qǐng)求發(fā)送
return request其它
我們需要在settings.py中開啟下載中間件才能使其生效
# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
'xxx.middlewares.XxxDownloaderMiddleware': 543,
}到此這篇關(guān)于python爬蟲框架scrapy下載中間件的編寫方法的文章就介紹到這了,更多相關(guān)python scrapy中間件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
使用Pygal庫(kù)創(chuàng)建可縮放的矢量圖表的操作方法
在本文中,我們探討了如何使用Pygal庫(kù)創(chuàng)建可縮放的矢量圖表,首先,我們介紹了Pygal的基本概念和安裝方法,然后通過(guò)多個(gè)示例演示了如何創(chuàng)建各種類型的圖表,包括折線圖、柱狀圖、餅圖、散點(diǎn)圖、雷達(dá)圖和地圖等,需要的朋友可以參考下2024-05-05
python可擴(kuò)展的Blender 3D插件開發(fā)匯總
這篇文章主要為大家介紹了python可擴(kuò)展的Blender 3D插件開發(fā)匯總,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-09-09
python創(chuàng)建列表和向列表添加元素的實(shí)現(xiàn)方法
下面小編就為大家分享一篇python創(chuàng)建列表和向列表添加元素的實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2017-12-12
Python記錄numpy.empty()函數(shù)引發(fā)的問(wèn)題及解決
這篇文章主要介紹了Python記錄numpy.empty()函數(shù)引發(fā)的問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-03-03
Pycharm導(dǎo)入anaconda環(huán)境的教程圖解
這篇文章主要介紹了Pycharm導(dǎo)入anaconda環(huán)境的教程,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-07-07
Python讀取Excel表格,并同時(shí)畫折線圖和柱狀圖的方法
今天小編就為大家分享一篇Python讀取Excel表格,并同時(shí)畫折線圖和柱狀圖的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-10-10
如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能
詞頻統(tǒng)計(jì)用途很廣泛,比如我們統(tǒng)計(jì)某篇文章中的用詞頻率,網(wǎng)絡(luò)熱點(diǎn)詞匯,再比如起名排行榜呀、熱門旅游景點(diǎn)排行榜呀什么的,其實(shí)也都可以套用,這篇文章主要給大家介紹了關(guān)于如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能的相關(guān)資料,需要的朋友可以參考下2021-10-10

