記錄一下scrapy中settings的一些配置小結

更新時間：2020年09月28日 11:16:22 作者：Davide~蘇

這篇文章主要介紹了記錄一下scrapy中settings的一些配置小結，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

本文主要介紹了scrapy settings配置，分享給大家，具體如下：

# 字符編碼
FEED_EXPORT_ENCODING = 'utf-8'

# redis寫法一
# REDIS_URL = 'redis://localhost:6379' 

# redis寫法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默認的 scrapy redis 會讀取下面的密碼和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}

# 對于失敗的HTTP請求(如超時)進行重試會降低爬取效率，當爬取目標基數(shù)很大時，舍棄部分數(shù)據(jù)不影響大局，提高效率
# RETRY_ENABLED = False
# 請求下載超時時間，默認180秒
DOWNLOAD_TIMEOUT = 10

# 1：設置去重組件，使用的是scrapy_redis的去重組件，而不是scrapy自己的去重組件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2：設置調(diào)度器，使用scrapy——redis重寫的調(diào)度器，
# 而不再使用scrapy內(nèi)部的調(diào)度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3：可以實現(xiàn)斷點爬取=jondir，（請求的記錄不會丟失，會存儲在redis數(shù)據(jù)庫中，
# 不會清除redis的隊列，下次直接從redis的隊列中爬?。?
SCHEDULER_PERSIST = True
# 4：設置任務隊列的模式（三選一）：
# SpiderPriorityQueue數(shù)據(jù)scrapy-redis默認使用的隊列模式（
# 有自己的優(yōu)先級）默認第一種
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了隊列的形式，任務先進先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了棧的形式：任務先進后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用來控制當接收到的 response 頭信息中的 Content-Length 和內(nèi)容不匹配或者response chunk 未正確結束時的時所采取的操作。
當 DOWNLOAD_FAIL_ON_DATALOSS 為 True 的時候拋出 ResponseFailed([_DataLoss]) 錯誤
當設置為 False 時， 校驗未通過的 response 將被忽略并且添加一個名為 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用戶名:密碼@ip:port'

到此這篇關于記錄一下scrapy中settings的一些配置小結的文章就介紹到這了,更多相關scrapy settings配置內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Scrapy框架基本命令與settings.py設置

Python基于Hypothesis測試庫生成測試數(shù)據(jù)
這篇文章主要介紹了Python基于Hypothesis測試庫生成測試數(shù)據(jù),文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-04-04
python base64 decode incorrect padding錯誤解決方法
這篇文章主要介紹了python base64 decode incorrect padding錯誤解決方法,本文使用把string補齊等號的方法解決了這個錯誤,需要的朋友可以參考下
2015-01-01
Python字符串的轉義字符
這篇文章主要介紹了Python字符串的轉義字符，轉義字符是指，用一些普通字符的組合來代替一些特殊字符，由于其組合改變了原來字符表示的含義，下文相關資料需要的小伙伴可以參考一下
2022-04-04
Python的一些用法分享
前不久學了點python，昨天剛好要處理一個文件，于是拿來試試
2012-10-10
Python爬蟲爬取王者榮耀英雄信息并保存到圖數(shù)據(jù)庫的操作方法
本文介紹了如何使用Python爬蟲技術從王者榮耀官方獲取英雄信息,并將數(shù)據(jù)保存到圖數(shù)據(jù)庫中,文章詳細說明了爬取英雄名稱、類型及皮膚名稱的過程,并展示了創(chuàng)建英雄類型節(jié)點和英雄信息節(jié)點的方法
2024-09-09
win7上python2.7連接mysql數(shù)據(jù)庫的方法
這篇文章主要介紹了win7上python2.7連接mysql數(shù)據(jù)庫的方法,小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-01-01
python畫柱狀圖--不同顏色并顯示數(shù)值的方法
今天小編就為大家分享一篇python畫柱狀圖--不同顏色并顯示數(shù)值的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
python取均勻不重復的隨機數(shù)方式
今天小編就為大家分享一篇python取均勻不重復的隨機數(shù)方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-11-11
python GUI庫圖形界面開發(fā)之PyQt5多線程中信號與槽的詳細使用方法與實例
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5多線程中信號與槽的詳細使用方法與實例,需要的朋友可以參考下
2020-03-03
pandas取dataframe特定行列的實現(xiàn)方法
大家在使用Python進行數(shù)據(jù)分析時，經(jīng)常要使用到的一個數(shù)據(jù)結構就是pandas的DataFrame，本文介紹了pandas取dataframe特定行列的實現(xiàn)方法，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-05-05