Python的爬蟲框架scrapy用21行代碼寫一個爬蟲
開發(fā)說明
開發(fā)環(huán)境:Pycharm 2017.1(目前最新)
開發(fā)框架:Scrapy 1.3.3(目前最新)
目標(biāo)
爬取線報網(wǎng)站,并把內(nèi)容保存到items.json里
頁面分析

根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為post這個div里
下面放出post的代碼
<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a rel="external nofollow" title="4月7日 淘金幣淘里程領(lǐng)取京東簽到" rel="bookmark" target="_blank">4月7日 淘金幣淘里程領(lǐng)取京東簽到</a><span>已結(jié)束</span></h2>
<h6>發(fā)布日期: 2017-04-07 | 分類: <a rel="external nofollow" >虛擬幣</a> | 瀏覽:125177
</h6><div class="intro"><p>淘金幣一鍵領(lǐng)取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機(jī)端30金幣】 http://h5.m.taobao...</p></div></div>
實現(xiàn)方法
1、定義items
class DemoItem(scrapy.Item): id = scrapy.Field() title = scrapy.Field() href = scrapy.Field() content = scrapy.Field()
2、新建一個爬蟲名為test
# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
#定義爬蟲的名字和需要爬取的網(wǎng)址
name = "test"
allowed_domains = ["www.abckg.com"]
start_urls = ['http://www.abckg.com/']
def parse(self, response):
for resp in response.css('.post'):
#實例化item
item = DemoItem()
#把獲取到的內(nèi)容保存到item內(nèi)
item['href'] = resp.css('h2 a::attr(href)').extract()
item['title'] = resp.css('h2 a::text').extract()
item['content'] = resp.css('.intro p::text').extract()
yield item
#下面是多頁面的爬取方法
urls = response.css('.pageinfo a::attr(href)').extract()
for url in urls:
yield Request(url, callback=self.parse)
categorys = response.css('.menu li a::attr(href)').extract()
for ct in categorys:
yield Request(ct, callback=self.parse)
3、修改settings.py,添加以下代碼
FEED_EXPORT_ENCODING = 'utf-8'
#運(yùn)行
打開cmd輸入
scrapy crawl test -o items.json


已知bug
如果多次運(yùn)行該爬蟲,不會覆蓋原有的內(nèi)容,而是追加數(shù)據(jù)(好像是scrapy的bug)
可拓展內(nèi)容
1、定時運(yùn)行爬蟲,當(dāng)檢查到網(wǎng)站更新時獲取新數(shù)據(jù)并發(fā)郵件通知
2、檢測數(shù)據(jù)是否重復(fù)
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
淺析python 內(nèi)置字符串處理函數(shù)的使用方法
這篇文章主要介紹了python 內(nèi)置字符串處理函數(shù)的使用方法,需要的朋友可以參考下2014-06-06
PyCharm接入DeepSeek實現(xiàn)AI編程的操作流程
DeepSeek 是一家專注于人工智能技術(shù)研發(fā)的公司,致力于開發(fā)高性能、低成本的 AI 模型,接下來,我們把DeepSeek接入到PyCharm中,并利用其能力輔助我們進(jìn)行代碼開發(fā),感興趣的小伙伴跟著小編一起來看看吧2025-01-01
python變量數(shù)據(jù)類型和運(yùn)算符
這篇文章主要介紹了python變量數(shù)據(jù)類型和運(yùn)算符,不同類型的變量可以進(jìn)行的運(yùn)算是不同的,所以必須理解變量的類型,下面文章的更多相關(guān)內(nèi)容介紹,需要的小伙伴可以參考一下2022-07-07
Python結(jié)合Redis開發(fā)一個消息訂閱系統(tǒng)
消息訂閱是一種常見的通信模式,用于實現(xiàn)系統(tǒng)之間的解耦和異步通信,本文將詳細(xì)介紹如何使用Python實現(xiàn)一個高效與可靠的消息訂閱系統(tǒng),有需要的可以了解下2025-03-03
Python?OpenCV超詳細(xì)講解讀取圖像視頻和網(wǎng)絡(luò)攝像頭
OpenCV用C++語言編寫,它具有C?++,Python,Java和MATLAB接口,并支持Windows,Linux,Android和Mac?OS,OpenCV主要傾向于實時視覺應(yīng)用,并在可用時利用MMX和SSE指令,本篇文章帶你了解OpenCV讀取圖像視頻與網(wǎng)絡(luò)攝像頭的方法2022-04-04
python實現(xiàn)數(shù)據(jù)可視化超詳細(xì)講解
Python的數(shù)據(jù)可視化是將數(shù)據(jù)以圖形或圖表的形式呈現(xiàn),使復(fù)雜的信息更易于理解和分析,本文給大家詳細(xì)介紹了python數(shù)據(jù)可視化的實現(xiàn),文中通過圖文結(jié)合的方式介紹的非常詳細(xì),需要的朋友可以參考下2024-06-06

