Python爬蟲框架Scrapy常用命令總結(jié)
本文實(shí)例講述了Python爬蟲框架Scrapy常用命令。分享給大家供大家參考,具體如下:
在Scrapy中,工具命令分為兩種,一種為全局命令,一種為項(xiàng)目命令。
全局命令不需要依靠Scrapy項(xiàng)目就可以在全局中直接運(yùn)行,而項(xiàng)目命令必須要在Scrapy項(xiàng)目中才可以運(yùn)行
全局命令
全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不進(jìn)入Scrapy項(xiàng)目所在目錄的情況下,運(yùn)行scrapy-h,如圖所示:

可以看到,此時(shí)在可用命令在終端下展示出了常見的全局命令,分別為fetch、runspider、settings、shell、startproject、version、view。
fetch命令
fetch命令主要用來顯示爬蟲爬取的過程.如下圖所示:

在使用fetch命令時(shí),同樣可以使用某些參數(shù)進(jìn)行相應(yīng)的控制。那么fetch有哪些相關(guān)參數(shù)可以使用呢?我們可以通過scrpy fetch -h列出所有可以使用的fetch相關(guān)參數(shù)。比如我們可以使用–headers顯示頭信息,也可以使用–nolog控制不顯示日志信息,還可以使用–spider=SPIDER參數(shù)來控制使用哪個(gè)爬蟲,通過–logfile=FILE指定存儲(chǔ)日志信息的文件,通過–loglevel=LEVEL控制日志等級(jí)。舉個(gè)栗子:
# 顯示頭信息,并且不顯示日志信息 scrpay -fetch --headers --nolog http://www.baidu.com
sunspider命令
通過runspider命令可以不依托scrapy的爬蟲項(xiàng)目,直接運(yùn)行一個(gè)爬蟲文件
# first.py為自定義的一個(gè)爬蟲文件 scrapy runspider first.py
settings命令
在scrapy項(xiàng)目所在的目錄中使用settings命令查看的使用對(duì)應(yīng)的項(xiàng)目配置信息,如果在scrapy項(xiàng)目所在的目錄外使用settings命令查看的Scrapy默認(rèn)的配置信息
# 在項(xiàng)目中使用此命令打印的為BOT_NAME對(duì)應(yīng)的值,即scrapy項(xiàng)目名稱。 # 在項(xiàng)目外使用此命令打印的為scrapybot scrapy settings --get BOT_NAME
shell命令
通過shell命令可以啟動(dòng)Scrapy的交互終端。
Scrapy的交互終端經(jīng)常在開發(fā)以及調(diào)試的時(shí)候用到,使用Scrapy的交互終端可以實(shí)現(xiàn)在不啟動(dòng)Scrapy爬蟲的情況下,對(duì)網(wǎng)站響應(yīng)進(jìn)行調(diào)試,同樣,在該交互終端下,我們也可以寫一些Python代碼進(jìn)行相應(yīng)測(cè)試。

在>>>后面可以輸入交互命令以及相應(yīng)的代碼
startproject命令
用于創(chuàng)建scrapy項(xiàng)目
version命令
查看scrapy版本
view命令
用于下載某個(gè)網(wǎng)頁,然后通過瀏覽器查看
項(xiàng)目命令
bench命令
測(cè)試本地硬件的性能
scrapy bench
genspider命令
用于創(chuàng)建爬蟲文件,這是一種快速創(chuàng)建爬蟲文件的方式。
# scrpay genspider -t 基本格式 # basic 模板 # baidu.com 爬取的域名 scrapy genspider -t basic xxx baidu.com
此時(shí)在spider文件夾下會(huì)生成一個(gè)以xxx命名的py文件??梢允褂?code>scrapy genspider -l查看所有可用爬蟲模板。當(dāng)前可用的爬蟲模板有:basic、crawl、csvfeed、xmlfeed
check命令
使用check命令可以實(shí)現(xiàn)對(duì)某個(gè)爬蟲文件進(jìn)行合同檢查,即測(cè)試.
# xxx為爬蟲名 scrapy check xxx
crawl命令
啟動(dòng)某個(gè)爬蟲
# xxx為爬蟲名 scrapy crawl xxx
list命令
列出當(dāng)前可使用的爬蟲文件
scrapy list
edit命令
編輯爬蟲文件
scrapy edit xxx
parse命令
通過parse命令,我們可以實(shí)現(xiàn)獲取指定的URL網(wǎng)址,并使用對(duì)應(yīng)的爬蟲文件進(jìn)行處理和分析
日志等級(jí)
| 等級(jí)名 | 含義 |
|---|---|
| CRITICAL | 發(fā)生了最嚴(yán)重的錯(cuò)誤 |
| ERROR | 發(fā)生了必須立即處理的錯(cuò)誤 |
| WARNING | 出現(xiàn)了一些警告信息,即存在潛在錯(cuò)誤 |
| INFO | 輸出一些提示顯示 |
| DEBUG | 輸出一些調(diào)試信息 |
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
相關(guān)文章
Python 3.x對(duì).CSV數(shù)據(jù)按任意行、列讀取的過程
這篇文章主要介紹了Python 3.x對(duì).CSV數(shù)據(jù)按任意行、列讀取的過程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。2022-05-05
150行python代碼實(shí)現(xiàn)貪吃蛇游戲
這篇文章主要為大家詳細(xì)介紹了150行python代碼實(shí)現(xiàn)貪吃蛇游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-04-04
基于PyQt5實(shí)現(xiàn)狀態(tài)欄(statusBar)顯示和隱藏功能
這篇文章主要為大家詳細(xì)介紹了如何利用PyQt5實(shí)現(xiàn)狀態(tài)欄顯示和隱藏功能,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助2022-08-08
Python實(shí)現(xiàn)自動(dòng)上傳文件到百度網(wǎng)盤
這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)自動(dòng)上傳文件到百度網(wǎng)盤功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起了解一下2023-04-04

