python爬蟲(chóng)用scrapy獲取影片的實(shí)例分析

更新時(shí)間：2020年11月23日 14:20:37 作者：小妮淺淺

在本篇內(nèi)容里小編給大家整理的是一篇關(guān)于python爬蟲(chóng)用scrapy獲取影片的實(shí)例分析內(nèi)容，有興趣的朋友們可以參考下。

我們平時(shí)生活的娛樂(lè)中，看電影是大部分小伙伴都喜歡的事情。周圍的人總會(huì)有意無(wú)意的在談?wù)?，有什么影片上映，好不好看之類的話題，沒(méi)事的時(shí)候談?wù)撾娪笆欠浅２诲e(cuò)的話題。那么，一些好看的影片如果不去電影院的話，在其他地方看都會(huì)有大大小小的限制，今天小編就教大家用python中的scrapy獲取影片的辦法吧。

1. 創(chuàng)建項(xiàng)目

運(yùn)行命令:

scrapy startproject myfrist（your_project_name）

文件說(shuō)明：名稱 | 作用 --|-- scrapy.cfg | 項(xiàng)目的配置信息，主要為Scrapy命令行工具提供一個(gè)基礎(chǔ)的配置信息。（真正爬蟲(chóng)相關(guān)的配置信息在settings.py文件中） items.py | 設(shè)置數(shù)據(jù)存儲(chǔ)模板，用于結(jié)構(gòu)化數(shù)據(jù)，如：Django的Model pipelines | 數(shù)據(jù)處理行為，如：一般結(jié)構(gòu)化的數(shù)據(jù)持久化 settings.py | 配置文件，如：遞歸的層數(shù)、并發(fā)數(shù)，延遲下載等 spiders | 爬蟲(chóng)目錄，如：創(chuàng)建文件，編寫爬蟲(chóng)規(guī)則

注意：一般創(chuàng)建爬蟲(chóng)文件時(shí)，以網(wǎng)站域名命名

2 編寫 spdier

在spiders目錄中新建 daidu_spider.py 文件

2.1 注意

爬蟲(chóng)文件需要定義一個(gè)類，并繼承scrapy.spiders.Spider

必須定義name，即爬蟲(chóng)名，如果沒(méi)有name，會(huì)報(bào)錯(cuò)。因?yàn)樵创a中是這樣定義的

2.2 編寫內(nèi)容

在這里可以告訴 scrapy 。要如何查找確切數(shù)據(jù)，這里必須要定義一些屬性

name: 它定義了蜘蛛的唯一名稱

allowed_domains: 它包含了蜘蛛抓取的基本URL；

start-urls: 蜘蛛開(kāi)始爬行的URL列表；

parse(): 這是提取并解析刮下數(shù)據(jù)的方法；

下面的代碼演示了蜘蛛代碼的樣子：

import scrapy
class DoubanSpider(scrapy.Spider):
  name = 'douban'
  allwed_url = 'douban.com'
  start_urls = [
    'https://movie.douban.com/top250/'
  ]
  def parse(self, response):
    movie_name = response.xpath("http://div[@class='item']//a/span[1]/text()").extract()
    movie_core = response.xpath("http://div[@class='star']/span[2]/text()").extract()
    yield {
      'movie_name':movie_name,
      'movie_core':movie_core
    }

到此這篇關(guān)于python爬蟲(chóng)用scrapy獲取影片的實(shí)例分析的文章就介紹到這了,更多相關(guān)python爬蟲(chóng)如何用scrapy獲取影片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: