基于Python實現(xiàn)ComicReaper漫畫自動爬取腳本過程解析
這篇文章主要介紹了基于Python實現(xiàn)ComicReaper漫畫自動爬取腳本過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
講真的, 手機看漫畫翻頁總是會手殘碰到頁面上的廣告好吧...
要是能只需要指定一本漫畫的主頁URL就能給我返回整本漫畫就好了...
這促使我產(chǎn)生了使用Python 3來實現(xiàn), 做一個 ComicReaper(漫畫收割者) 的想法!
本文所用漫畫鏈接 : http://www.manhuadb.com/manhua/2317
總體流程

那就開始吧
做一些準備工作
先用字符串存儲兩個鏈接, 一個是本次漫畫網(wǎng)站站點的域名URL, 另一個是當前我們要爬取的漫畫的主頁URL
再定義一個 header 字典, 用于存儲我們的 User-Agent 和 Referer Referrer (由于早期HTTP規(guī)范的拼寫錯誤, 為了保持向后兼容就將錯就錯了)
首部字段 User-Agent
首部字段 User-Agent 告訴服務(wù)器當前創(chuàng)建請求的瀏覽器是什么(有的網(wǎng)站會針對不同的瀏覽器提供不同的頁面, 比如如果是手機瀏覽器提出的請求, 服務(wù)器就向客戶端提供網(wǎng)站的手機版頁面)
比如說同樣是請求 GitHub 的主頁, 左邊是使用筆記本電腦上面的瀏覽器請求的頁面, 右邊是在安卓手機上請求的頁面

首部字段 Referer
首部字段 Referer 告訴服務(wù)器當前請求的頁面是從哪個Web頁面發(fā)起的(一般情況下 Referer 字段用于防盜鏈)
有的網(wǎng)站不允許直接訪問網(wǎng)站里面的URL, 只能通過從主頁點擊某個鏈接來進行跳轉(zhuǎn), 或者...我們在請求之前把 User-Agent 字段設(shè)置為主頁或發(fā)起頁即可
url_domainame = r'http://www.manhuadb.com'
url_host = r'http://www.manhuadb.com/manhua/2317'
header = {
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0',
'Referer' : ''
}
獲取章節(jié)目錄
首先我們對我們接下來要做的事情做一個具體流程分析
我們要獲取當前漫畫所有章節(jié)的標題與URL(標題用于后期存儲時文件夾的命名, URL用于跳轉(zhuǎn)到當前章節(jié)的開始頁面)并且存儲在列表中

將會使用到Python的兩個庫, re 與 urllib
import re # 導入正則表達式 import urllib.request # 導入 urllib.request
對在瀏覽器中按下 [F12] 鍵打開開發(fā)者工具來對漫畫的章節(jié)頁面進行分析

我們可以看到頁面中有很多章節(jié), 也就是章節(jié)跳轉(zhuǎn)鏈接, 每個鏈接的<a>標簽中正好具有我們需要的標題和URL, 分別是<a>標簽的 title 屬性與 href 屬性, 我們將使用字典來存儲它
先不慌著前進, 考慮到整個HTML中有非常多的鏈接, 那么也就意味著頁面中具有大量的<a>標簽, 如果我們只是單純地從HTML中過濾出<a>標簽, 這樣我們會得到大量我們并不需要的<a>標簽, 這是不明智的, 我們必須只過濾出章節(jié)跳轉(zhuǎn)鏈接的<a>標簽, 仔細觀察, 發(fā)現(xiàn)章節(jié)跳轉(zhuǎn)鏈接的<a>標簽們都具有一個特點, 那就是它們都具有 class 屬性并且屬性值為 "fixed-a-es" , 這就找到了一個可以定位章節(jié)<a>標簽的依據(jù), 把這一點加入到我們的正則表達式的匹配規(guī)則中去
現(xiàn)在就可以定義一個正則表達式匹配字符串了:
pat = r'<a class="fixed-a-es" href="(.*?)" rel="external nofollow" rel="external nofollow" title="(.*?)"'
為什么要這么寫 :
- 在Python中, 在字符串常量的開頭加一個 'r' 表示本字符串中的 '\' 字符將不會用來作轉(zhuǎn)義字符使用, 保留了它原本的含義, 也就是反斜杠字符
- 在正則表達式中, '.' 字符用于匹配任何字符(當匹配時具有 're.S' 標志時此話成立, 否則只能匹配任意但除了 '\n' 以外的字符)
- 在正則表達式中, '*' 字符用于描述它左邊的匹配字符的出現(xiàn)次數(shù)為0次或若干次
- 在正則表達式中, '(.*?)' 的組合用來表示一個貪婪匹配(并且會被捕捉到)
使用這個正則表達式, 就可以匹配到 title 屬性與 href 屬性的屬性值中的雙引號里面的內(nèi)容了
具體實現(xiàn)是 chapterIndexReaper 函數(shù), 主要用來"收割"當前漫畫的所有章節(jié)并存儲為字典列表
代碼如下 :
#獲取一本漫畫的所有章節(jié)的目錄
def chapterIndexReaper(url_host, header):
# 定義一個臨時字典, 用于臨時存儲一個章節(jié)的標題與url
dic_temp = {
'Title' : '',
'Url' : ''
}
# 章節(jié)字典列表, 存儲當前漫畫的所有章節(jié)字典
set_dic = []
# 構(gòu)建Request對象
req = urllib.request.Request(url = url_host, headers = header)
# 讀取所請求的req并用utf-8編碼來進行解碼, 所得到的的字符串賦值給html
html = urllib.request.urlopen(req).read().decode('utf-8')
# 爬取漫畫章節(jié)標題與url的正則表達式
pat = r'<a class="fixed-a-es" href="(.*?)" rel="external nofollow" rel="external nofollow" title="(.*?)"'
# 使用pat在html中進行進行匹配(re.S參數(shù)是為了讓"."除了能夠匹配本身規(guī)定的字符,
# 另外也能匹配"\n"), 返回一個結(jié)果列表res
res = re.findall(pat, html, re.S)
for i in res:
dic_temp['Title'] = i[1]
dic_temp['Url'] = url_head + i[0]
# 向當前的章節(jié)字典列表的后面追加新的章節(jié), 注意, 此處要使用淺拷貝
# (因為dic_temp是一個臨時變量, 需要創(chuàng)建它的副本并追加到set_dic中去,
# 否則當dic_temp刷新時set_dic中的元素會相應(yīng)發(fā)生改變)
set_dic.append(dic_temp.copy())
return set_dic
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python圖像處理庫PIL的ImageFont模塊使用介紹
這篇文章主要介紹了Python圖像處理庫PIL的ImageFont模塊使用介紹,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-02-02
python 利用已有Ner模型進行數(shù)據(jù)清洗合并代碼
今天小編就為大家分享一篇python 利用已有Ner模型進行數(shù)據(jù)清洗合并代碼,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12
Python實現(xiàn)清理微信僵尸粉功能示例【基于itchat模塊】
這篇文章主要介紹了Python實現(xiàn)清理微信僵尸粉功能,結(jié)合實例形式分析了Python使用itchat模塊刪除微信僵尸粉的相關(guān)原理、操作技巧與注意事項,需要的朋友可以參考下2020-05-05
Python基礎(chǔ)之logging模塊知識總結(jié)
用Python寫代碼的時候,在想看的地方寫個print xx 就能在控制臺上顯示打印信息,這樣子就能知道它是什么了,但是當我需要看大量的地方或者在一個文件中查看的時候,這時候print就不大方便了,所以Python引入了logging模塊來記錄我想要的信息,需要的朋友可以參考下2021-05-05
Python實戰(zhàn)快速上手BeautifulSoup庫爬取專欄標題和地址
BeautifulSoup是爬蟲必學的技能,BeautifulSoup最主要的功能是從網(wǎng)頁抓取數(shù)據(jù),Beautiful Soup自動將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為utf-8編碼2021-10-10

