Scrapy的簡單使用教程
在這篇入門教程中,我們假定你已經安裝了python。如果你還沒有安裝,那么請參考安裝指南。
首先第一步:進入開發(fā)環(huán)境,workon article_spider
進入這個環(huán)境:

安裝Scrapy,在安裝的過程中出現(xiàn)了一些錯誤:通常這些錯誤都是部分文件沒有安裝導致的,因為大學時經常出現(xiàn),所以對解決這種問題,很實在,直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/這個網站下載對應的文件,下載后用pip安裝,具體過程不在贅述。

然后進入工程目錄,并打開我們的新創(chuàng)建的虛擬環(huán)境:

新建scrapy工程:ArticleSpider

創(chuàng)建好工程框架:在pycharm中導入

scrapy.cfg: 項目的配置文件。
ArticleSpeder/: 該項目的python模塊。之后您將在此加入代碼。
ArticleSpeder/items.py: 項目中的item文件。
ArticleSpeder/pipelines.py: 項目中的pipelines文件。
ArticleSpeder/settings.py: 項目的設置文件。
ArticleSpeder/spiders/: 放置spider代碼的目錄。
回到dos窗口用basic創(chuàng)建模板

上面pycharm的截圖中已經創(chuàng)建好了:
為了今后更好的開發(fā),創(chuàng)建一個用于debug的類main.py
from scrapy.cmdline import execute import sys import os print(os.path.dirname(os.path.abspath(__file__))) sys.path.append(os.path.dirname(os.path.abspath(__file__))) execute(["scrapy","crawl","jobbole"])
這是代碼內容
import sys 為了設置工程目錄,調用命令才會生效
里面的路徑最好不要寫死:可以通過os獲取路徑,更加靈活
execute用來執(zhí)行目標程序的
jobbole.py的內容
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/110287']
def parse(self, response):
re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")
re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')
title = response.xpath('//div[@class="entry-header"]/h1/text()')
create_date = response.xpath("")
#//*[@id="112706votetotal"]
dian_zan = int(response.xpath("http://span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])
pass
通過xpath技術獲取對應文章的一些字段信息,包括標題,時間,評論數,點贊數等,因為比較簡單所以不在贅述
寫到這兒,大家也知道每次在pycharm里面debug和麻煩,因為scrapy比較大,所以這時候我們可以使用Scrapy shell來調試

標記部分是目標網站的地址:現(xiàn)在我們可以更加愉悅的進行調試了。
今天scrapy的初體驗就到這里了
相關文章
詳解四種Python中基本形態(tài)學濾波的實現(xiàn)
最基礎的形態(tài)學操作有四個,分別是腐蝕、膨脹、開計算和閉計算。這篇文章主要介紹了這四種形態(tài)學濾波的實現(xiàn),感興趣的小伙伴可以跟隨小編一起學習一下2023-04-04
python結合多線程爬取英雄聯(lián)盟皮膚(原理分析)
多線程是為了同步完成多項任務,不是為了提高運行效率,而是為了提高資源使用效率來提高系統(tǒng)的效率。這篇文章主要介紹了python爬取英雄聯(lián)盟皮膚結合多線程的方法,需要的朋友可以參考下2021-05-05
解決python3運行selenium下HTMLTestRunner報錯的問題
今天小編就為大家分享一篇解決python3運行selenium下HTMLTestRunner報錯的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12
Python?Flask框架實現(xiàn)Proteus仿真Arduino與網頁數據交互
這篇文章主要介紹了Python?Flask框架實現(xiàn)Proteus仿真Arduino與網頁數據交互,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習吧2022-11-11
利用For循環(huán)遍歷Python字典的三種方法實例
字典由多個鍵和其對應的值構成的鍵—值對組成,鍵和值中間以冒號:隔開,項之間用逗號隔開,整個字典是由大括號{}括起來的,下面這篇文章主要給大家介紹了關于如何利用For循環(huán)遍歷Python字典的三種方法,需要的朋友可以參考下2022-03-03

