Scrapy的簡單使用教程

更新時間：2017年10月24日 08:47:14 作者：貝克田莊

Scrapy，Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛，可以用于數據挖掘、監(jiān)測和自動化測試。

在這篇入門教程中，我們假定你已經安裝了python。如果你還沒有安裝，那么請參考安裝指南。

首先第一步：進入開發(fā)環(huán)境，workon article_spider

進入這個環(huán)境：

安裝Scrapy，在安裝的過程中出現(xiàn)了一些錯誤：通常這些錯誤都是部分文件沒有安裝導致的，因為大學時經常出現(xiàn)，所以對解決這種問題，很實在，直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/這個網站下載對應的文件，下載后用pip安裝，具體過程不在贅述。

然后進入工程目錄，并打開我們的新創(chuàng)建的虛擬環(huán)境：

新建scrapy工程：ArticleSpider

創(chuàng)建好工程框架：在pycharm中導入

scrapy.cfg: 項目的配置文件。
ArticleSpeder/: 該項目的python模塊。之后您將在此加入代碼。
ArticleSpeder/items.py: 項目中的item文件。
ArticleSpeder/pipelines.py: 項目中的pipelines文件。
ArticleSpeder/settings.py: 項目的設置文件。
ArticleSpeder/spiders/: 放置spider代碼的目錄。

回到dos窗口用basic創(chuàng)建模板

上面pycharm的截圖中已經創(chuàng)建好了：

為了今后更好的開發(fā)，創(chuàng)建一個用于debug的類main.py

from scrapy.cmdline import execute
import sys
import os
print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"])

這是代碼內容

import sys 為了設置工程目錄，調用命令才會生效

里面的路徑最好不要寫死：可以通過os獲取路徑，更加靈活

execute用來執(zhí)行目標程序的

jobbole.py的內容

class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/110287']

def parse(self, response):
re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")
re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')
title = response.xpath('//div[@class="entry-header"]/h1/text()')
create_date = response.xpath("")
#//*[@id="112706votetotal"]
dian_zan = int(response.xpath("http://span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])
pass

通過xpath技術獲取對應文章的一些字段信息，包括標題，時間，評論數，點贊數等，因為比較簡單所以不在贅述

寫到這兒，大家也知道每次在pycharm里面debug和麻煩，因為scrapy比較大，所以這時候我們可以使用Scrapy shell來調試

標記部分是目標網站的地址：現(xiàn)在我們可以更加愉悅的進行調試了。

今天scrapy的初體驗就到這里了

您可能感興趣的文章:

Scrapy

超級好用的4個Python命令行可視化庫
通常大家都是在自己的電腦上跑程序,直接是可以可視化相應的結果.如果是在服務器上的話,使用終端,是不太方便查看結果. 今天,小F就給大家介紹4個可以在命令行中使用的Python庫. 分別是Bashplotlib、tqdm、PrettyTable、Colorama,需要的朋友可以參考下
2021-06-06
DataFrame數據框模糊查詢與去重方式
數據框模糊查詢通常使用contains函數和正則表達式來實現(xiàn),可以查詢以某個字符開頭、包含或結尾的數據,若數據類型不一致可能會報錯,需統(tǒng)一為str類型,數據框去重則通過drop_duplicates函數實現(xiàn),可指定列進行去重,并有多種處理重復值的方式
2024-09-09
如何提取Playwright錄制文件中的元素定位信息
最近在學習Playwright自動化測試，本文主要介紹了如何提取Playwright錄制文件中的元素定位信息，文中通過示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-12-12
Django進階之CSRF的解決
這篇文章主要介紹了Django進階之CSRF的解決，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2018-08-08
詳解四種Python中基本形態(tài)學濾波的實現(xiàn)
最基礎的形態(tài)學操作有四個，分別是腐蝕、膨脹、開計算和閉計算。這篇文章主要介紹了這四種形態(tài)學濾波的實現(xiàn)，感興趣的小伙伴可以跟隨小編一起學習一下
2023-04-04
python結合多線程爬取英雄聯(lián)盟皮膚(原理分析)
多線程是為了同步完成多項任務，不是為了提高運行效率，而是為了提高資源使用效率來提高系統(tǒng)的效率。這篇文章主要介紹了python爬取英雄聯(lián)盟皮膚結合多線程的方法,需要的朋友可以參考下
2021-05-05
解決python3運行selenium下HTMLTestRunner報錯的問題
今天小編就為大家分享一篇解決python3運行selenium下HTMLTestRunner報錯的問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
Python?Flask框架實現(xiàn)Proteus仿真Arduino與網頁數據交互
這篇文章主要介紹了Python?Flask框架實現(xiàn)Proteus仿真Arduino與網頁數據交互，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習吧
2022-11-11
利用For循環(huán)遍歷Python字典的三種方法實例
字典由多個鍵和其對應的值構成的鍵—值對組成,鍵和值中間以冒號：隔開,項之間用逗號隔開,整個字典是由大括號{}括起來的,下面這篇文章主要給大家介紹了關于如何利用For循環(huán)遍歷Python字典的三種方法,需要的朋友可以參考下
2022-03-03
Python正則抓取網易新聞的方法示例
這篇文章主要介紹了Python正則抓取網易新聞的方法,結合實例形式較為詳細的分析了Python使用正則進行網易新聞抓取操作的相關實現(xiàn)技巧與注意事項,需要的朋友可以參考下
2017-04-04