python爬蟲(chóng)用scrapy獲取影片的實(shí)例分析
我們平時(shí)生活的娛樂(lè)中,看電影是大部分小伙伴都喜歡的事情。周圍的人總會(huì)有意無(wú)意的在談?wù)?,有什么影片上映,好不好看之類的話題,沒(méi)事的時(shí)候談?wù)撾娪笆欠浅2诲e(cuò)的話題。那么,一些好看的影片如果不去電影院的話,在其他地方看都會(huì)有大大小小的限制,今天小編就教大家用python中的scrapy獲取影片的辦法吧。
1. 創(chuàng)建項(xiàng)目
運(yùn)行命令:
scrapy startproject myfrist(your_project_name)

文件說(shuō)明: 名稱 | 作用 --|-- scrapy.cfg | 項(xiàng)目的配置信息,主要為Scrapy命令行工具提供一個(gè)基礎(chǔ)的配置信息。(真正爬蟲(chóng)相關(guān)的配置信息在settings.py文件中) items.py | 設(shè)置數(shù)據(jù)存儲(chǔ)模板,用于結(jié)構(gòu)化數(shù)據(jù),如:Django的Model pipelines | 數(shù)據(jù)處理行為,如:一般結(jié)構(gòu)化的數(shù)據(jù)持久化 settings.py | 配置文件,如:遞歸的層數(shù)、并發(fā)數(shù),延遲下載等 spiders | 爬蟲(chóng)目錄,如:創(chuàng)建文件,編寫爬蟲(chóng)規(guī)則
注意:一般創(chuàng)建爬蟲(chóng)文件時(shí),以網(wǎng)站域名命名
2 編寫 spdier
在spiders目錄中新建 daidu_spider.py 文件
2.1 注意
爬蟲(chóng)文件需要定義一個(gè)類,并繼承scrapy.spiders.Spider
必須定義name,即爬蟲(chóng)名,如果沒(méi)有name,會(huì)報(bào)錯(cuò)。因?yàn)樵创a中是這樣定義的
2.2 編寫內(nèi)容
在這里可以告訴 scrapy 。要如何查找確切數(shù)據(jù),這里必須要定義一些屬性
name: 它定義了蜘蛛的唯一名稱
allowed_domains: 它包含了蜘蛛抓取的基本URL;
start-urls: 蜘蛛開(kāi)始爬行的URL列表;
parse(): 這是提取并解析刮下數(shù)據(jù)的方法;
下面的代碼演示了蜘蛛代碼的樣子:
import scrapy
class DoubanSpider(scrapy.Spider):
name = 'douban'
allwed_url = 'douban.com'
start_urls = [
'https://movie.douban.com/top250/'
]
def parse(self, response):
movie_name = response.xpath("http://div[@class='item']//a/span[1]/text()").extract()
movie_core = response.xpath("http://div[@class='star']/span[2]/text()").extract()
yield {
'movie_name':movie_name,
'movie_core':movie_core
}
到此這篇關(guān)于python爬蟲(chóng)用scrapy獲取影片的實(shí)例分析的文章就介紹到這了,更多相關(guān)python爬蟲(chóng)如何用scrapy獲取影片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python爬蟲(chóng)scrapy框架之增量式爬蟲(chóng)的示例代碼
- 一文讀懂python Scrapy爬蟲(chóng)框架
- python爬蟲(chóng)scrapy基本使用超詳細(xì)教程
- python爬蟲(chóng)scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析
- python爬蟲(chóng)scrapy框架的梨視頻案例解析
- 詳解Python之Scrapy爬蟲(chóng)教程N(yùn)BA球員數(shù)據(jù)存放到Mysql數(shù)據(jù)庫(kù)
- Python爬蟲(chóng)scrapy框架Cookie池(微博Cookie池)的使用
- python pyppeteer 破解京東滑塊功能的代碼
- Python實(shí)現(xiàn)京東搶秒殺功能
- Python之京東商品秒殺的實(shí)現(xiàn)示例
- 基于Python爬取京東雙十一商品價(jià)格曲線
- 賺瘋了!轉(zhuǎn)手立賺800+?大佬的python「搶茅臺(tái)腳本」使用教程
- python基于scrapy爬取京東筆記本電腦數(shù)據(jù)并進(jìn)行簡(jiǎn)單處理和分析
相關(guān)文章
Python數(shù)據(jù)分析之?Matplotlib?3D圖詳情
本文主要介紹了Python數(shù)據(jù)分析之Matplotlib 3D圖詳情,Matplotlib提供了mpl_toolkits.mplot3d工具包來(lái)進(jìn)行3D圖表的繪制,下文總結(jié)了更多相關(guān)資料,需要的小伙伴可以參考一下2022-05-05
Python turtle畫圖庫(kù)&&畫姓名實(shí)例
今天小編就為大家分享一篇Python turtle畫圖庫(kù)&&畫姓名實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01
Python調(diào)用百度根據(jù)經(jīng)緯度查詢地址的示例代碼
今天小編就為大家分享一篇Python調(diào)用百度根據(jù)經(jīng)緯度查詢地址的示例代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07
python 把文件中的每一行以數(shù)組的元素放入數(shù)組中的方法
下面小編就為大家分享一篇python 把文件中的每一行以數(shù)組的元素放入數(shù)組中的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04
Python環(huán)境搭建過(guò)程從安裝到Hello World
這篇文章主要介紹了Python環(huán)境搭建過(guò)程從安裝到Hello World,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-02-02
Python判斷兩個(gè)文件是否相同與兩個(gè)文本進(jìn)行相同項(xiàng)篩選的方法
今天小編就為大家分享一篇關(guān)于Python判斷兩個(gè)文件是否相同與兩個(gè)文本進(jìn)行相同項(xiàng)篩選的方法,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-03-03

