Python爬蟲框架Scrapy常用命令總結(jié)

更新時(shí)間：2018年07月26日 12:04:46 作者：噴跑的豆子

這篇文章主要介紹了Python爬蟲框架Scrapy常用命令,結(jié)合實(shí)例形式總結(jié)分析了Scrapy框架中常見的全局命令與項(xiàng)目命令功能、使用方法及操作注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Python爬蟲框架Scrapy常用命令。分享給大家供大家參考，具體如下：

在Scrapy中，工具命令分為兩種，一種為全局命令，一種為項(xiàng)目命令。

全局命令不需要依靠Scrapy項(xiàng)目就可以在全局中直接運(yùn)行，而項(xiàng)目命令必須要在Scrapy項(xiàng)目中才可以運(yùn)行

全局命令

全局命令有哪些呢，要想了解在Scrapy中有哪些全局命令，可以在不進(jìn)入Scrapy項(xiàng)目所在目錄的情況下，運(yùn)行scrapy-h,如圖所示:

可以看到，此時(shí)在可用命令在終端下展示出了常見的全局命令，分別為fetch、runspider、settings、shell、startproject、version、view。

fetch命令

fetch命令主要用來顯示爬蟲爬取的過程.如下圖所示:

在使用fetch命令時(shí)，同樣可以使用某些參數(shù)進(jìn)行相應(yīng)的控制。那么fetch有哪些相關(guān)參數(shù)可以使用呢？我們可以通過scrpy fetch -h列出所有可以使用的fetch相關(guān)參數(shù)。比如我們可以使用–headers顯示頭信息,也可以使用–nolog控制不顯示日志信息，還可以使用–spider=SPIDER參數(shù)來控制使用哪個(gè)爬蟲，通過–logfile=FILE指定存儲(chǔ)日志信息的文件，通過–loglevel=LEVEL控制日志等級(jí)。舉個(gè)栗子:

# 顯示頭信息，并且不顯示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通過runspider命令可以不依托scrapy的爬蟲項(xiàng)目，直接運(yùn)行一個(gè)爬蟲文件

# first.py為自定義的一個(gè)爬蟲文件
scrapy runspider first.py

settings命令

在scrapy項(xiàng)目所在的目錄中使用settings命令查看的使用對(duì)應(yīng)的項(xiàng)目配置信息,如果在scrapy項(xiàng)目所在的目錄外使用settings命令查看的Scrapy默認(rèn)的配置信息

# 在項(xiàng)目中使用此命令打印的為BOT_NAME對(duì)應(yīng)的值，即scrapy項(xiàng)目名稱。
# 在項(xiàng)目外使用此命令打印的為scrapybot
scrapy settings --get BOT_NAME

shell命令

通過shell命令可以啟動(dòng)Scrapy的交互終端。

Scrapy的交互終端經(jīng)常在開發(fā)以及調(diào)試的時(shí)候用到，使用Scrapy的交互終端可以實(shí)現(xiàn)在不啟動(dòng)Scrapy爬蟲的情況下，對(duì)網(wǎng)站響應(yīng)進(jìn)行調(diào)試，同樣，在該交互終端下，我們也可以寫一些Python代碼進(jìn)行相應(yīng)測(cè)試。

在>>>后面可以輸入交互命令以及相應(yīng)的代碼

startproject命令

用于創(chuàng)建scrapy項(xiàng)目

version命令

查看scrapy版本

view命令

用于下載某個(gè)網(wǎng)頁，然后通過瀏覽器查看

項(xiàng)目命令

bench命令

測(cè)試本地硬件的性能

scrapy bench

genspider命令

用于創(chuàng)建爬蟲文件，這是一種快速創(chuàng)建爬蟲文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此時(shí)在spider文件夾下會(huì)生成一個(gè)以xxx命名的py文件?？梢允褂?code>scrapy genspider -l查看所有可用爬蟲模板。當(dāng)前可用的爬蟲模板有：basic、crawl、csvfeed、xmlfeed

check命令

使用check命令可以實(shí)現(xiàn)對(duì)某個(gè)爬蟲文件進(jìn)行合同檢查，即測(cè)試.

# xxx為爬蟲名
scrapy check xxx

crawl命令

啟動(dòng)某個(gè)爬蟲

# xxx為爬蟲名
scrapy crawl xxx

list命令

列出當(dāng)前可使用的爬蟲文件

scrapy list

edit命令

編輯爬蟲文件

scrapy edit xxx

parse命令

通過parse命令，我們可以實(shí)現(xiàn)獲取指定的URL網(wǎng)址，并使用對(duì)應(yīng)的爬蟲文件進(jìn)行處理和分析

日志等級(jí)

等級(jí)名	含義
CRITICAL	發(fā)生了最嚴(yán)重的錯(cuò)誤
ERROR	發(fā)生了必須立即處理的錯(cuò)誤
WARNING	出現(xiàn)了一些警告信息，即存在潛在錯(cuò)誤
INFO	輸出一些提示顯示
DEBUG	輸出一些調(diào)試信息