編寫Python爬蟲抓取暴走漫畫上gif圖片的實例分享
本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖,方便離線觀看。爬蟲用的是python3.3開發(fā)的,主要用到了urllib、request和BeautifulSoup模塊。
urllib模塊提供了從萬維網(wǎng)中獲取數(shù)據(jù)的高層接口,當我們用urlopen()打開一個URL時,就相當于我們用Python內(nèi)建的open()打開一個文件。但不同的是,前者接收一個URL作為參數(shù),并且沒有辦法對打開的文件流進行seek操作(從底層的角度看,因為實際上操作的是socket,所以理所當然地沒辦法進行seek操作),而后者接收的是一個本地文件名。
Python的BeautifulSoup模塊,可以幫助你實現(xiàn)HTML和XML的解析
先說一下,一般寫網(wǎng)頁爬蟲,即抓取網(wǎng)頁的html源碼等內(nèi)容,然后分析,提取相應(yīng)的內(nèi)容。
這種分析html內(nèi)容的工作,如果只是用普通的正則表達式re模塊去一點點匹配的話,對于內(nèi)容簡單點的網(wǎng)頁分析,還是基本夠用。
但是對于工作量很大,要解析內(nèi)容很繁雜的html,那么用re模塊,就會發(fā)現(xiàn)無法實現(xiàn),或很難實現(xiàn)。
而使用beautifulsoup模塊去幫你實現(xiàn)分析html源碼的工作的話,你就會發(fā)現(xiàn),事情變得如此簡單,極大地提高了分析html源碼的效率。
注:BeautifulSoup是第三方庫,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲源代碼如下
# -*- coding: utf-8 -*-
import urllib.request
import bs4,os
page_sum = 1 #設(shè)置下載頁數(shù)
path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
os.mkdir(path) #創(chuàng)建文件夾
url = "http://baozoumanhua.com/gif/year" #url地址
headers = { #偽裝瀏覽器
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
' Chrome/32.0.1700.76 Safari/537.36'
}
for count in range(page_sum):
req = urllib.request.Request(
url = url+str(count+1),
headers = headers
)
print(req.full_url)
content = urllib.request.urlopen(req).read()
soup = bs4.BeautifulSoup(content) # BeautifulSoup
img_content = soup.findAll('img',attrs={'style':'width:460px'})
url_list = [img['src'] for img in img_content] #列表推導 url
title_list = [img['alt'] for img in img_content] #圖片名稱
for i in range(url_list.__len__()) :
imgurl = url_list[i]
filename = path + os.sep +title_list[i] + ".gif"
print(filename+":"+imgurl) #打印下載信息
urllib.request.urlretrieve(imgurl,filename) #下載圖片
在第15行可以修改下載頁數(shù),將此文件保存為baozougif.py,使用命令python baozougif.py運行后在同目錄下會生成「暴走GIF」的文件夾,所有的圖片會自動下載到該目錄中。
相關(guān)文章
windows python3安裝Jupyter Notebooks教程
這篇文章主要介紹了windows python3安裝Jupyter Notebooks教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04
Python深度學習神經(jīng)網(wǎng)絡(luò)殘差塊
這篇文章主要為大家介紹了Python深度學習中的神經(jīng)網(wǎng)絡(luò)殘差塊示例詳解有需要的 朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步2021-10-10
python中[[]] * (n)和[[] for _ in 
本文主要介紹了python中[[]] * (n)和[[] for _ in range(n)]的區(qū)別詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2024-02-02
Python設(shè)計模式中的創(chuàng)建型工廠模式
這篇文章主要介紹了Python設(shè)計模式中的創(chuàng)建型工廠模式,工廠模式即Factory?Pattern,是提供創(chuàng)建對象的最佳方式,下文小編介紹Python工廠模式的相關(guān)資料,需要的朋友可以參考一下2022-02-02
python從Hadoop?HDFS導出數(shù)據(jù)到關(guān)系數(shù)據(jù)庫
這篇文章主要為大家詳細介紹了Python如何從Hadoop?HDFS中導出數(shù)據(jù)并通過DataX工具導入到關(guān)系數(shù)據(jù)庫,例如MySQL,Oracle,PostgreSQL等,感興趣的可以了解下2024-11-11

