Python的爬蟲框架scrapy用21行代碼寫一個爬蟲

更新時間：2017年04月24日 08:34:17 作者：凌霄

最近在學(xué)習(xí)Python的爬蟲框架scrapy，通過爬取線報網(wǎng)站后發(fā)現(xiàn)整個過程還是挺值得學(xué)習(xí)的，所以下面這篇文章主要就給大家介紹了Python的爬蟲框架scrapy利用21行代碼寫一個爬蟲的相關(guān)資料，需要的朋友可以參考借鑒，下面來一起看看吧。

開發(fā)說明

開發(fā)環(huán)境:Pycharm 2017.1(目前最新)

開發(fā)框架:Scrapy 1.3.3(目前最新)

目標(biāo)

爬取線報網(wǎng)站,并把內(nèi)容保存到items.json里

頁面分析

根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為post這個div里

下面放出post的代碼

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a  rel="external nofollow" title="4月7日 淘金幣淘里程領(lǐng)取京東簽到" rel="bookmark" target="_blank">4月7日 淘金幣淘里程領(lǐng)取京東簽到</a><span>已結(jié)束</span></h2>
<h6>發(fā)布日期: 2017-04-07 | 分類: <a  rel="external nofollow" >虛擬幣</a> | 瀏覽:125177
</h6><div class="intro"><p>淘金幣一鍵領(lǐng)取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機(jī)端30金幣】 http://h5.m.taobao...</p></div></div>

實現(xiàn)方法

1、定義items

class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一個爬蟲名為test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定義爬蟲的名字和需要爬取的網(wǎng)址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.css('.post'):
  #實例化item
  item = DemoItem()
  #把獲取到的內(nèi)容保存到item內(nèi)
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多頁面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代碼