python3 scrapy框架的執(zhí)行流程

更新時間：2021年07月08日 15:54:58 作者：百里 Jess

Scrapy的安裝有多種方式，它支持Python2.7版本及以上或Python3.3版本及以上。下面說明python3 scrapy框架的常用命令及框架執(zhí)行流程，感興趣的朋友一起看看吧

scrapy框架概述：Scrapy，Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛，可以用于數據挖掘、監(jiān)測和自動化測試。

創(chuàng)建項目

由于pycharm不能直接創(chuàng)建scrapy項目，必須通過命令行創(chuàng)建，所以相關操作在pycharm的終端進行：
1、安裝scrapy模塊：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、創(chuàng)建一個scrapy項目：scrapy startproject test_scrapy
4、生成一個爬蟲：scrapy genspider itcast "itcast.cn”
5、提取數據：完善spider，使用xpath等方法
6、保存數據：pipeline中保存數據

常用的命令

創(chuàng)建項目：scrapy startproject xxx
進入項目：cd xxx #進入某個文件夾下
創(chuàng)建爬蟲：scrapy genspider xxx（爬蟲名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲：scrapy crawl XXX
列出所有爬蟲：scrapy list
獲得配置信息：scrapy settings [options]

Scrapy項目下文件

scrapy.cfg: 項目的配置文件
test_scrapy/: 該項目的python模塊。在此放入代碼（核心）
test_scrapy/items.py: 項目中的item文件.（這是創(chuàng)建容器的地方，爬取的信息分別放到不同容器里）
test_scrapy/pipelines.py: 項目中的pipelines文件.
test_scrapy/settings.py: 項目的設置文件.（我用到的設置一下基礎參數，比如加個文件頭，設置一個編碼）
test_scrapy/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

scrapy

scrapy框架的整體執(zhí)行流程

1.spider的yeild將request發(fā)送給engine
2.engine對request不做任何處理發(fā)送給scheduler
3.scheduler，生成request交給engine
4.engine拿到request，通過middleware發(fā)送給downloader
5.downloader在\獲取到response之后，又經過middleware發(fā)送給engine
6.engine獲取到response之后，返回給spider，spider的parse()方法對獲取到的response進行處理，解析出items或者requests
7.將解析出來的items或者requests發(fā)送給engine
8.engine獲取到items或者requests，將items發(fā)送給ItemPipeline，將requests發(fā)送給scheduler（ps，只有調度器中不存在request時，程序才停止，及時請求失敗scrapy也會重新進行請求）

關于yeild函數介紹

簡單地講，yield 的作用就是把一個函數變成一個 generator（生成器），帶有 yield 的函數不再是一個普通函數，Python 解釋器會將其視為一個 generator，帶有yeild的函數遇到y(tǒng)eild的時候就返回一個迭代值，下次迭代時，代碼從 yield 的下一條語句繼續(xù)執(zhí)行，而函數的本地變量看起來和上次中斷執(zhí)行前是完全一樣的，于是函數繼續(xù)執(zhí)行，直到再次遇到 yield。

通俗的講就是：在一個函數中，程序執(zhí)行到y(tǒng)ield語句的時候，程序暫停，返回yield后面表達式的值，在下一次調用的時候，從yield語句暫停的地方繼續(xù)執(zhí)行，如此循環(huán)，直到函數執(zhí)行完。

到此這篇關于python3 scrapy框架的執(zhí)行流程的文章就介紹到這了,更多相關python3 scrapy框架內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

pytorch 中autograd.grad()函數的用法說明
這篇文章主要介紹了pytorch 中autograd.grad()函數的用法說明，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2021-05-05
10個python爬蟲入門基礎代碼實例 + 1個簡單的python爬蟲完整實例
這篇文章主要介紹了10個python爬蟲入門基礎代碼實例和1個簡單的python爬蟲爬蟲貼吧圖片的實例,需要的朋友可以參考下
2020-12-12
Python代碼打開本地.mp4格式文件的方法
今天小編就為大家分享一篇Python代碼打開本地.mp4格式文件的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-01-01
在Python中操作時間之tzset()方法的使用教程
這篇文章主要介紹了在Python中操作時間之tzset()方法的使用教程,是Python學習中的基礎知識,需要的朋友可以參考下
2015-05-05
Python中的占位符pass用法
在 Python 中,pass 是一個空操作語句,表示“什么都不做”,它通常用作占位符,用于在語法上需要語句但實際不需要執(zhí)行任何操作的場景,本文給大家介紹Python中的占位符pass用法,感興趣的朋友一起看看吧
2025-04-04
Django操作session 的方法
這篇文章主要介紹了Django操作session 的方法，本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
2020-03-03
Python HTTP下載文件并顯示下載進度條功能的實現(xiàn)
這篇文章主要介紹了Python HTTP下載文件并顯示下載進度條功能，本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
2020-04-04
詳解python之配置日志的幾種方式
本篇文章主要介紹了詳解python之配置日志的幾種方式，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-05-05
Python 專題二條件語句和循環(huán)語句的基礎知識
本文主要介紹了Python條件語句和循環(huán)語句的基礎知識。主要內容包括: 1.條件語句:包括單分支、雙分支和多分支語句,if-elif-else；2.循環(huán)語句:while的使用及簡單網絡刷博器爬蟲；3.循環(huán)語句:for的使用及遍歷列表、元組、文件和字符串。
2017-03-03
如何基于OpenCV&Python實現(xiàn)霍夫變換圓形檢測
最近開始學習opencv,想檢測圖片上的圓環(huán),發(fā)現(xiàn)霍夫變換可以做這樣的效果出來,于是嘗試用霍夫變換做了下圓環(huán)檢測,這篇文章主要給大家介紹了基于OpenCV&Python實現(xiàn)霍夫變換圓形檢測的相關資料,需要的朋友可以參考下
2021-08-08