記錄一下scrapy中settings的一些配置小結
本文主要介紹了scrapy settings配置,分享給大家,具體如下:
# 字符編碼 FEED_EXPORT_ENCODING = 'utf-8'
# redis寫法一
# REDIS_URL = 'redis://localhost:6379'
# redis寫法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默認的 scrapy redis 會讀取下面的密碼和db
REDIS_PARAMS = {
'password': '123456',
'db': redis_db
}
# 對于失敗的HTTP請求(如超時)進行重試會降低爬取效率,當爬取目標基數(shù)很大時,舍棄部分數(shù)據(jù)不影響大局,提高效率 # RETRY_ENABLED = False # 請求下載超時時間,默認180秒 DOWNLOAD_TIMEOUT = 10
# 1:設置去重組件,使用的是scrapy_redis的去重組件,而不是scrapy自己的去重組件了 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 2:設置調(diào)度器,使用scrapy——redis重寫的調(diào)度器, # 而不再使用scrapy內(nèi)部的調(diào)度器了 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 3:可以實現(xiàn)斷點爬取=jondir,(請求的記錄不會丟失,會存儲在redis數(shù)據(jù)庫中, # 不會清除redis的隊列,下次直接從redis的隊列中爬?。? SCHEDULER_PERSIST = True # 4:設置任務隊列的模式(三選一): # SpiderPriorityQueue數(shù)據(jù)scrapy-redis默認使用的隊列模式( # 有自己的優(yōu)先級)默認第一種 SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue" # 使用了隊列的形式,任務先進先出。 # SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue" # 采用了棧的形式:任務先進后出 # SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack" ''' 用來控制當接收到的 response 頭信息中的 Content-Length 和內(nèi)容不匹配或者response chunk 未正確結束時的時所采取的操作。 當 DOWNLOAD_FAIL_ON_DATALOSS 為 True 的時候拋出 ResponseFailed([_DataLoss]) 錯誤 當設置為 False 時, 校驗未通過的 response 將被忽略并且添加一個名為 dataloss 的 flag 到 response.flag ''' DOWNLOAD_FAIL_ON_DATALOSS = False MONGO_URI = 'mongodb://用戶名:密碼@ip:port'
到此這篇關于記錄一下scrapy中settings的一些配置小結的文章就介紹到這了,更多相關scrapy settings配置內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python基于Hypothesis測試庫生成測試數(shù)據(jù)
這篇文章主要介紹了Python基于Hypothesis測試庫生成測試數(shù)據(jù),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-04-04
python base64 decode incorrect padding錯誤解決方法
這篇文章主要介紹了python base64 decode incorrect padding錯誤解決方法,本文使用把string補齊等號的方法解決了這個錯誤,需要的朋友可以參考下2015-01-01
Python爬蟲爬取王者榮耀英雄信息并保存到圖數(shù)據(jù)庫的操作方法
本文介紹了如何使用Python爬蟲技術從王者榮耀官方獲取英雄信息,并將數(shù)據(jù)保存到圖數(shù)據(jù)庫中,文章詳細說明了爬取英雄名稱、類型及皮膚名稱的過程,并展示了創(chuàng)建英雄類型節(jié)點和英雄信息節(jié)點的方法2024-09-09
win7上python2.7連接mysql數(shù)據(jù)庫的方法
這篇文章主要介紹了win7上python2.7連接mysql數(shù)據(jù)庫的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-01-01
python GUI庫圖形界面開發(fā)之PyQt5多線程中信號與槽的詳細使用方法與實例
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5多線程中信號與槽的詳細使用方法與實例,需要的朋友可以參考下2020-03-03
pandas取dataframe特定行列的實現(xiàn)方法
大家在使用Python進行數(shù)據(jù)分析時,經(jīng)常要使用到的一個數(shù)據(jù)結構就是pandas的DataFrame,本文介紹了pandas取dataframe特定行列的實現(xiàn)方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-05-05

