python爬蟲入門教程之糗百圖片爬蟲代碼分享

更新時間：2014年09月02日 10:56:41 投稿：junjie

這篇文章主要介紹了python爬蟲入門教程之糗百圖片爬蟲代碼分享,本文以抓取糗事百科內(nèi)涵圖為需求寫了一個爬蟲,,需要的朋友可以參考下

學(xué)習(xí)python少不了寫爬蟲，不僅能以點帶面地學(xué)習(xí)、練習(xí)使用python，爬蟲本身也是有用且有趣的，大量重復(fù)性的下載、統(tǒng)計工作完全可以寫一個爬蟲程序完成。

用python寫爬蟲需要python的基礎(chǔ)知識、涉及網(wǎng)絡(luò)的幾個模塊、正則表達(dá)式、文件操作等知識。昨天在網(wǎng)上學(xué)習(xí)了一下，寫了一個爬蟲自動下載「糗事百科」里面的圖片。源代碼如下：

復(fù)制代碼代碼如下:

# -*- coding: utf-8 -*-
# 上面那句讓代碼里支持中文

#---------------------------------------
#   程序：糗百圖片爬蟲
#   版本：0.1
#   作者：趙偉
#   日期：2013-07-25
#   語言：Python 2.7
#   說明：能設(shè)置下載的頁數(shù)。沒有做更多抽象和交互方面的優(yōu)化。
#---------------------------------------

import urllib2
import urllib
import re

#正則表達(dá)式，用來抓取圖片的地址
pat = re.compile('<div class="thumb">\\n<img src=\"(ht.*?)\".*?>')

#用來合成網(wǎng)頁的URL
nexturl1 = "http://m.qiushibaike.com/imgrank/page/"
nexturl2 = "?s=4582487&slow"

#頁數(shù)計數(shù)
count = 1

#設(shè)置抓取的頁數(shù)
while count < 3:

    print "Page " + str(count) + "\n"
    myurl = nexturl1 + str(count) + nexturl2
    myres = urllib2.urlopen(myurl)#抓取網(wǎng)頁
    mypage = myres.read()#讀取網(wǎng)頁內(nèi)容
    ucpage = mypage.decode("utf-8") #轉(zhuǎn)碼

    mat = pat.findall(ucpage)#用正則表達(dá)式抓取圖片地址

    count += 1;

    if len(mat):
        for item in mat:
            print "url: " + item + "\n"
            fnp = re.compile('/(\w+\.\w+)$')#下面三行分離出圖片文件的名稱
            fnr = fnp.findall(item)
            fname = fnr[0]
            urllib.urlretrieve(item, fname)#下載圖片

    else:
        print "no data"

使用方法：新建一個practice文件夾，將源代碼保存為qb.py文件，并放在practice文件夾中，在命令行里執(zhí)行python qb.py，即開始下載圖片?？梢孕薷脑创a里面的while語句設(shè)置下載的頁數(shù)。

您可能感興趣的文章:

相關(guān)文章

基于python plotly交互式圖表大全
今天小編就為大家分享一篇基于python plotly交互式圖表大全，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12
python教程網(wǎng)絡(luò)爬蟲及數(shù)據(jù)可視化原理解析
這篇文章主要為大家介紹了python教程中網(wǎng)絡(luò)爬蟲及數(shù)據(jù)可視化原理的示例解析，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步早日升職加薪
2021-10-10
Tornado 多進(jìn)程實現(xiàn)分析詳解
這篇文章主要介紹了Tornado 多進(jìn)程實現(xiàn)分析詳解，具有一定借鑒價值,需要的朋友可以參考下
2018-01-01
Python3.9又更新了:dict內(nèi)置新功能
這篇文章主要介紹了Python3.9又更新了:dict內(nèi)置新功能，從文檔中，我們可以看到官方透露的對 dict、math 等組件增加的新特性，以及下一步的開發(fā)進(jìn)展
2020-02-02
Python編程itertools模塊處理可迭代集合相關(guān)函數(shù)
本篇博客將為你介紹Python函數(shù)式編程itertools模塊中處理可迭代集合的相關(guān)函數(shù)，有需要的朋友可以借鑒參考下，希望可以有所幫助
2021-09-09
利用OpenCV+Tensorflow實現(xiàn)的手勢識別
這幾天沒事,想著再學(xué)點一些視覺識別方向的東西,因為之前做了驗證碼識別,有了機器學(xué)習(xí)的信心,因此這次打算做個手勢識別,下面這篇文章主要給大家介紹了關(guān)于利用OpenCV+Tensorflow實現(xiàn)的手勢識別的相關(guān)資料,需要的朋友可以參考下
2022-11-11
Python全棧之列表數(shù)據(jù)類型詳解
這篇文章主要給大家介紹了關(guān)于Python全棧之列表數(shù)據(jù)類型的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，對大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價值，需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
2019-10-10
Python+微信接口實現(xiàn)運維報警
這篇文章主要介紹了Python+微信接口實現(xiàn)運維報警的相關(guān)資料,需要的朋友可以參考下
2016-08-08
Python的Tornado框架實現(xiàn)圖片上傳及圖片大小修改功能
Tornado是一個異步的Python Web開發(fā)框架,同時也是一個優(yōu)秀的異步服務(wù)器開發(fā)庫,這里我們將來講解一下Python的Tornado框架實現(xiàn)圖片上傳及圖片大小修改功能方面的一些重點:
2016-06-06
Python將博客內(nèi)容html導(dǎo)出為Markdown格式
Python將博客內(nèi)容html導(dǎo)出為Markdown格式,通過博客url地址抓取文章,分析并提取出文章標(biāo)題和內(nèi)容,將內(nèi)容構(gòu)建成html,再轉(zhuǎn)換為Markdown文件
2025-04-04