Python使用爬蟲(chóng)爬取靜態(tài)網(wǎng)頁(yè)圖片的方法詳解

更新時(shí)間：2018年06月05日 12:02:50 作者：coder_Gray

這篇文章主要介紹了Python使用爬蟲(chóng)爬取靜態(tài)網(wǎng)頁(yè)圖片的方法,較為詳細(xì)的說(shuō)明了爬蟲(chóng)的原理,并結(jié)合實(shí)例形式分析了Python使用爬蟲(chóng)來(lái)爬取靜態(tài)網(wǎng)頁(yè)圖片的相關(guān)操作技巧,需要的朋友可以參考下

本文實(shí)例講述了Python使用爬蟲(chóng)爬取靜態(tài)網(wǎng)頁(yè)圖片的方法。分享給大家供大家參考，具體如下：

爬蟲(chóng)理論基礎(chǔ)

其實(shí)爬蟲(chóng)沒(méi)有大家想象的那么復(fù)雜，有時(shí)候也就是幾行代碼的事兒，千萬(wàn)不要把自己嚇倒了。這篇就清晰地講解一下利用Python爬蟲(chóng)的理論基礎(chǔ)。

首先說(shuō)明爬蟲(chóng)分為三個(gè)步驟，也就需要用到三個(gè)工具。

① 利用網(wǎng)頁(yè)下載器將網(wǎng)頁(yè)的源碼等資源下載。
② 利用URL管理器管理下載下來(lái)的URL
③ 利用網(wǎng)頁(yè)解析器解析需要的URL，進(jìn)而進(jìn)行匹配。

網(wǎng)頁(yè)下載器

網(wǎng)頁(yè)下載器常用的有兩個(gè)。一個(gè)是Python自帶的urllib2模塊；另一個(gè)是第三方控件requests。選用哪個(gè)其實(shí)差異不大，下一篇將會(huì)進(jìn)行實(shí)踐操作舉例。

URL管理器

url管理器有三大類(lèi)。

① 內(nèi)存：以set形式存儲(chǔ)在內(nèi)存中
② 存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)mysql等
③ 緩存數(shù)據(jù)庫(kù)redis中

網(wǎng)頁(yè)解析器

網(wǎng)頁(yè)解析器一共有四類(lèi)：

1.正則表達(dá)式，不過(guò)對(duì)于太復(fù)雜的匹配就會(huì)有些難度，屬于模糊匹配。
2.html.parser，這是python自帶的解析工具。
3.Beautiful Soup，一種第三方控件，顧名思義，美味的湯，用起來(lái)確實(shí)很方便，很強(qiáng)大。
4.lxml（apt.xml），第三方控件。

以上的這些全部屬于結(jié)構(gòu)化解析（DOM樹(shù)）

什么式結(jié)構(gòu)化解析（DOM）？

Document Object Model(DOM)是一種樹(shù)的形式。

Beautiful Soup的語(yǔ)法

html網(wǎng)頁(yè)—>創(chuàng)建BeautifulSoup對(duì)象—>搜索節(jié)點(diǎn) find_all（）/find（）—>訪問(wèn)節(jié)點(diǎn)，名稱，屬性，文字等……

Beautiful Soup官方文檔

實(shí)現(xiàn)代碼

說(shuō)過(guò)了理論基礎(chǔ)，那么現(xiàn)在就來(lái)實(shí)踐一個(gè)，要爬取一個(gè)靜態(tài)網(wǎng)頁(yè)的所有圖片。

這里使用的網(wǎng)頁(yè)下載器是python自帶的urllib2，然后利用正則表達(dá)式匹配，輸出結(jié)果。

以下為源碼：

//引入小需要用到的模塊
import urllib2
import re
def main():
  //利用urllib2的urlopen方法，下載當(dāng)前url的網(wǎng)頁(yè)內(nèi)容
  req = urllib2.urlopen('http://www.imooc.com/course/list')
  //將網(wǎng)頁(yè)內(nèi)容存儲(chǔ)到buf變量中
  buf = req.read()
  //將buf中的所有內(nèi)容與需要匹配的url進(jìn)行比對(duì)。這里的正則表達(dá)式是根據(jù)靜態(tài)網(wǎng)頁(yè)的源碼得出的，查看靜態(tài)網(wǎng)頁(yè)源碼開(kāi)啟開(kāi)發(fā)者模式，按F12即可。然后確定圖片塊，查看對(duì)應(yīng)源碼內(nèi)容，找出規(guī)律，編寫(xiě)正則表達(dá)式。
  listurl = re.findall(r'src=.+\.jpg',buf)
  i = 0
  //將結(jié)果循環(huán)寫(xiě)入文件
  for url in listurl:
    f = open(str(i)+'.jpg','w')
    req = urllib2.urlopen(url[5:])
    buf1 = req.read()
    f.write(buf1)
    i+=1
if __name__ == '__main__':
  main()

至此一個(gè)靜態(tài)網(wǎng)頁(yè)的圖片爬蟲(chóng)就完成了，下面來(lái)看下效果。

這是靜態(tài)網(wǎng)頁(yè)：