基于scrapy實現(xiàn)的簡單蜘蛛采集程序

更新時間：2015年04月17日 12:22:19 作者：pythoner

這篇文章主要介紹了基于scrapy實現(xiàn)的簡單蜘蛛采集程序,實例分析了scrapy實現(xiàn)采集程序的技巧,具有一定參考借鑒價值,需要的朋友可以參考下

本文實例講述了基于scrapy實現(xiàn)的簡單蜘蛛采集程序。分享給大家供大家參考。具體如下：

# Standard Python library imports
# 3rd party imports
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
# My imports
from poetry_analysis.items import PoetryAnalysisItem
HTML_FILE_NAME = r'.+\.html'
class PoetryParser(object):
  """
  Provides common parsing method for poems formatted this one specific way.
  """
  date_pattern = r'(\d{2} \w{3,9} \d{4})'
 
  def parse_poem(self, response):
    hxs = HtmlXPathSelector(response)
    item = PoetryAnalysisItem()
    # All poetry text is in pre tags
    text = hxs.select('//pre/text()').extract()
    item['text'] = ''.join(text)
    item['url'] = response.url
    # head/title contains title - a poem by author
    title_text = hxs.select('//head/title/text()').extract()[0]
    item['title'], item['author'] = title_text.split(' - ')
    item['author'] = item['author'].replace('a poem by', '')
    for key in ['title', 'author']:
      item[key] = item[key].strip()
    item['date'] = hxs.select("http://p[@class='small']/text()").re(date_pattern)
    return item
class PoetrySpider(CrawlSpider, PoetryParser):
  name = 'example.com_poetry'
  allowed_domains = ['www.example.com']
  root_path = 'someuser/poetry/'
  start_urls = ['http://www.example.com/someuser/poetry/recent/',
         'http://www.example.com/someuser/poetry/less_recent/']
  rules = [Rule(SgmlLinkExtractor(allow=[start_urls[0] + HTML_FILE_NAME]),
                  callback='parse_poem'),
       Rule(SgmlLinkExtractor(allow=[start_urls[1] + HTML_FILE_NAME]),
                  callback='parse_poem')]

希望本文所述對大家的Python程序設(shè)計有所幫助。

您可能感興趣的文章:

相關(guān)文章

python批量下載網(wǎng)站馬拉松照片的完整步驟
這篇文章主要給大家介紹了關(guān)于利用python批量下載網(wǎng)站馬拉松照片的完整步驟，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2018-12-12
Python爬蟲自動化爬取b站實時彈幕實例方法
在本篇文章里小編給大家整理的是一篇關(guān)于Python爬蟲自動化爬取b站實時彈幕實例方法，有興趣的朋友們可以學(xué)習(xí)下。
2021-01-01
解決python中文亂碼問題方法總結(jié)
這篇文章主要介紹了解決python中文亂碼問題方法總結(jié),需要的朋友可以參考下
2021-05-05
pycharm使用matplotlib畫圖問題解決方法
Pycharm是一款功能強大的Python集成開發(fā)環(huán)境（IDE）,它提供了許多有用的工具和功能,可以幫助開發(fā)人員更輕松地編寫和調(diào)試Python代碼,其中一個有用的工具是Pycharm如何畫圖,本文給大家介紹在pycharm中使用matplotlib畫圖問題,感興趣的朋友一起看看吧
2023-11-11
詳解Python實現(xiàn)字典合并的四種方法
這篇文章主要為大家詳細介紹了Python的合并字典的四種方法，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助
2022-03-03
以SortedList為例詳解Python的defaultdict對象使用自定義類型的方法
這篇文章主要介紹了以SortedList為例詳解Python的defaultdict對象使用自定義類型的方法，文章圍繞主題展開詳細的內(nèi)容介紹，具有一定的參考價值，需要的朋友可以參考一下
2022-07-07
訊飛webapi語音識別接口調(diào)用示例代碼(python)
這篇文章主要介紹了如何使用Python3調(diào)用訊飛WebAPI語音識別接口,重點解決了在處理語音識別結(jié)果時判斷是否為最后一幀的問題,通過運行代碼并總結(jié)經(jīng)驗,解決了常見的模塊和屬性錯誤,需要的朋友可以參考下
2025-03-03
python自動化運維之Telnetlib的具體使用
本文將結(jié)合實例代碼，介紹python自動化運維之Telnetlib的具體使用,具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-06-06
深入淺析Python 中的sklearn模型選擇
這篇文章主要介紹了Python sklearn模型選擇的相關(guān)知識，非常不錯，具有一定的參考借鑒價值,需要的朋友可以參考下
2019-10-10
pandas讀取文件夾下所有excel文件的實現(xiàn)
最近需要做一個需求,要求匯總一個文件夾所有的excel文件,所以本文就來介紹一下pandas讀取文件夾下所有excel文件的實現(xiàn),具有一定的參考價值,感興趣的可以了解一下
2023-09-09