Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單
一、項(xiàng)目需求
爬取排行榜小說的作者,書名,分類以及完結(jié)或連載
二、項(xiàng)目分析
目標(biāo)url:“https://www.qidian.com/rank/hotsales?style=1&page=1”

通過控制臺(tái)搜索發(fā)現(xiàn)相應(yīng)信息均存在于html靜態(tài)網(wǎng)頁(yè)中,所以此次爬蟲難度較低。

通過控制臺(tái)觀察發(fā)現(xiàn),需要的內(nèi)容都在一個(gè)個(gè)li列表中,每一個(gè)列表代表一本書的內(nèi)容。

在li中找到所需的內(nèi)容

找到第兩頁(yè)的url
“https://www.qidian.com/rank/hotsales?style=1&page=1”
“https://www.qidian.com/rank/hotsales?style=1&page=2”
對(duì)比找到頁(yè)數(shù)變化
開始編寫scrapy程序。
三、程序編寫
創(chuàng)建項(xiàng)目太簡(jiǎn)單,不說了
1.編寫item(數(shù)據(jù)存儲(chǔ))
import scrapy
class QidianHotItem(scrapy.Item):
name = scrapy.Field() #名稱
author = scrapy.Field() #作者
type = scrapy.Field() #類型
form= scrapy.Field() #是否完載
2.編寫spider(數(shù)據(jù)抓?。ê诵拇a))
#coding:utf-8
from scrapy import Request
from scrapy.spiders import Spider
from ..items import QidianHotItem
#導(dǎo)入下需要的庫(kù)
class HotSalesSpider(Spider):#設(shè)置spider的類
name = "hot" #爬蟲的名稱
qidian_header={"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"} #設(shè)置header
current_page = 1 #爬蟲起始頁(yè)
def start_requests(self): #重寫第一次請(qǐng)求
url="https://www.qidian.com/rank/hotsales?style=1&page=1"
yield Request(url,headers=self.qidian_header,callback=self.hot_parse)
#Request發(fā)起鏈接請(qǐng)求
#url:目標(biāo)url
#header:設(shè)置頭部(模擬瀏覽器)
#callback:設(shè)置頁(yè)面抓起方式(空默認(rèn)為parse)
def hot_parse(self, response):#數(shù)據(jù)解析
#xpath定位
list_selector=response.xpath("http://div[@class='book-mid-info']")
#獲取所有小說
for one_selector in list_selector:
#獲取小說信息
name=one_selector.xpath("h4/a/text()").extract()[0]
#獲取作者
author=one_selector.xpath("p[1]/a[1]/text()").extract()[0]
#獲取類型
type=one_selector.xpath("p[1]/a[2]/text()").extract()[0]
# 獲取形式
form=one_selector.xpath("p[1]/span/text()").extract()[0]
item = QidianHotItem()
#生產(chǎn)存儲(chǔ)器,進(jìn)行信息存儲(chǔ)
item['name'] = name
item['author'] = author
item['type'] = type
item['form'] = form
yield item #送出信息
# 獲取下一頁(yè)URL,并生成一個(gè)request請(qǐng)求
self.current_page += 1
if self.current_page <= 10:#爬取前10頁(yè)
next_url = "https://www.qidian.com/rank/hotsales?style=1&page="+str(self.current_page)
yield Request(url=next_url,headers=self.qidian_header,callback=self.hot_parse)
def css_parse(self,response):
#css定位
list_selector = response.css("[class='book-mid-info']")
for one_selector in list_selector:
# 獲取小說信息
name = one_selector.css("h4>a::text").extract()[0]
# 獲取作者
author = one_selector.css(".author a::text").extract()[0]
# 獲取類型
type = one_selector.css(".author a::text").extract()[1]
# 獲取形式
form = one_selector.css(".author span::text").extract()[0]
# 定義字典
item=QidianHotItem()
item['name']=name
item['author'] = author
item['type'] = type
item['form'] = form
yield item
3.start.py(代替命令行)
在爬蟲項(xiàng)目文件夾下創(chuàng)建start.py。

from scrapy import cmdline
#導(dǎo)入cmd命令窗口
cmdline.execute("scrapy crawl hot -o hot.csv" .split())
#運(yùn)行爬蟲并生產(chǎn)csv文件
出現(xiàn)類似的過程代表爬取成功。

hot.csv

總結(jié)
本次爬蟲內(nèi)容還是十分簡(jiǎn)單的因?yàn)橹挥昧藄pider和item,這幾乎是所有scrapy都必須調(diào)用的文件,后期還會(huì)有middlewarse.py,pipelines.py,setting.py需要編寫和配置,以及從javascript和json中提取數(shù)據(jù),難度較大。
到此這篇關(guān)于Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單的文章就介紹到這了,更多相關(guān)Python爬取起點(diǎn)中文網(wǎng)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
完美解決keras 讀取多個(gè)hdf5文件進(jìn)行訓(xùn)練的問題
這篇文章主要介紹了完美解決keras 讀取多個(gè)hdf5文件進(jìn)行訓(xùn)練的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-07-07
Pytorch測(cè)試神經(jīng)網(wǎng)絡(luò)時(shí)出現(xiàn) RuntimeError:的解決方案
這篇文章主要介紹了Pytorch測(cè)試神經(jīng)網(wǎng)絡(luò)時(shí)出現(xiàn) RuntimeError:的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05
淺析Python 實(shí)現(xiàn)一個(gè)自動(dòng)化翻譯和替換的工具
這篇文章主要介紹了Python 實(shí)現(xiàn)一個(gè)自動(dòng)化翻譯和替換的工具,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-04-04
由淺入深學(xué)習(xí)TensorFlow MNIST 數(shù)據(jù)集
這篇文章主要由淺入深學(xué)習(xí)的講解TensorFlow MNIST 數(shù)據(jù)集,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-09-09
如何使用Python的Requests包實(shí)現(xiàn)模擬登陸
這篇文章主要為大家詳細(xì)介紹了使用Python的Requests包模擬登陸,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-04-04
一文詳解如何配置Pycharm進(jìn)行遠(yuǎn)程開發(fā)
在搞深度學(xué)習(xí)的時(shí)候,我們?cè)诒镜亻_發(fā),但是需要在服務(wù)器去運(yùn)行工程,所以需要使用Pycharm進(jìn)行遠(yuǎn)程配置,下面這篇文章主要給大家介紹了關(guān)于如何配置Pycharm進(jìn)行遠(yuǎn)程開發(fā)的相關(guān)資料,需要的朋友可以參考下2024-02-02
Python模塊導(dǎo)入的幾種方法實(shí)現(xiàn)
本文主要介紹了Python模塊導(dǎo)入的幾種方法實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2024-12-12

