Python爬蟲基礎之簡單說一下scrapy的框架結構
scrapy 框架結構
思考
- scrapy 為什么是框架而不是庫?
- scrapy是如何工作的?
項目結構
在開始爬取之前,必須創(chuàng)建一個新的Scrapy項目。進入您打算存儲代碼的目錄中,運行下列命令:
注意:創(chuàng)建項目時,會在當前目錄下新建爬蟲項目的目錄。
這些文件分別是:
- scrapy.cfg:項目的配置文件
- quotes/:該項目的python模塊。之后您將在此加入代碼
- quotes/items.py:項目中的item文件
- quotes/middlewares.py:爬蟲中間件、下載中間件(處理請求體與響應體)
- quotes/pipelines.py:項目中的pipelines文件
- quotes/settings.py:項目的設置文件
- quotes/spiders/:放置spider代碼的目錄
Scrapy原理圖

各個組件的介紹
1.Engine。引擎,處理整個系統(tǒng)的數(shù)據(jù)流處理、觸發(fā)事務,是整個框架的核心。
2.ltem。項目,它定義了爬取結果的數(shù)據(jù)結構,爬取的數(shù)據(jù)會被賦值成該ltem對象。
3.Scheduler。調度器,接受引擎發(fā)過來的請求并將其加入隊列中,在引擎再次請求的時候將請求提供給引擎。
4.Downloader。下載器,下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給蜘蛛。
5.Spiders。蜘蛛,其內(nèi)定義了爬取的邏輯和網(wǎng)頁的解析規(guī)則,它主要負責解析響應并生成提結果和新的請求。
6.Item Pipeline。項目管道,負責處理由蜘蛛從網(wǎng)頁中抽取的項目,它的主要任務是清洗、驗證和存儲數(shù)據(jù)。
7.Downloader Middlewares。下載器中間件,位于引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請求及響應。
8.Spider Middlewares。蜘蛛中間件,位于引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應和輸出的結果及新的請求。

數(shù)據(jù)的流動
- Scrapy Engine(引擎):負責Spider、ltemPipeline、Downloader、Scheduler中間的通訊,信號、數(shù)據(jù)傳遞等。
- Scheduler(調度器):負責接受引擎發(fā)送過來的Request請求,并按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎。
- Downloader(下載器):負責下載Scrapy Engine(引擎)發(fā)送的所有Requests請求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,
- Spider(爬蟲)︰負責處理所有Responses,從中分析提取數(shù)據(jù),獲取ltem字段需要的數(shù)據(jù),并將需要跟進的URL提交給引擎,再次進入Scheduler(調度器),
- ltem Pipeline(管道):負責處理Spider中獲取到的ltem,并進行進行后期處理(詳細分析、過濾、存儲等)的地方.
- Downloader Middlewares(下載中間件):你可以當作是一個可以自定義擴展下載功能的組件。
- Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴展和操作引擎和Spider中間通信的功能組件(比如進入Spider的Responses;和從Spider出去的Requests)
到此這篇關于Python爬蟲基礎之簡單說一下scrapy的框架結構的文章就介紹到這了,更多相關scrapy的框架結構內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Protocol Buffers(Protobuf)功能及使用方法
本文介紹了ProtocolBuffers(Protobuf)及其編譯器protoc,包括其數(shù)據(jù)描述語言的特性、編譯器的功能、.proto文件的定義、使用方法、支持的編程語言、安裝步驟、常用命令選項以及高級功能,感興趣的朋友跟隨小編一起看看吧2025-01-01
Python實現(xiàn)微信好友數(shù)據(jù)爬取及分析
這篇文章會基于Python對微信好友進行數(shù)據(jù)分析,這里選擇的維度主要有:性別、頭像、簽名、位置,主要采用圖表和詞云兩種形式來呈現(xiàn)結果,其中,對文本類信息會采用詞頻分析和情感分析兩種方法,感興趣的小伙伴可以了解一下2021-12-12
Python實現(xiàn)網(wǎng)絡聊天室的示例代碼(支持多人聊天與私聊)
這篇文章主要介紹了Python實現(xiàn)網(wǎng)絡聊天室的示例代碼(支持多人聊天與私聊),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-01-01
通過?for?循環(huán)比較?Python?與?Ruby?的編程區(qū)別
這篇文章主要介紹了通過?for?循環(huán)比較?Python?與?Ruby?的編程區(qū)別,Ruby?與?Python?之間的差異在很大程度上可通過for循環(huán)看出本質,下文詳細介紹需要的小伙伴可以參考一下2022-05-05

