Python中使用urllib2模塊編寫爬蟲的簡單上手示例
提起python做網(wǎng)絡爬蟲就不得不說到強大的組件urllib2。在python中正是使用urllib2這個組件來抓取網(wǎng)頁的。urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。它以urlopen函數(shù)的形式提供了一個非常簡單的接口。通過下面的代碼簡單感受一下urllib2的功能;
import urllib2
response = urllib2.urlopen('http://www.baidu.com/')
html = response.read()
print html
運行結(jié)果如下;

查看http://www.baidu.com/源代碼發(fā)現(xiàn)跟以上運行結(jié)果完全一樣。這里的URL除了http:還可以是ftp:或file:
urllib2用一個Request對象來映射提出的HTTP請求。你可以創(chuàng)建一個Request對象,通過調(diào)用urlopen并傳入Request對象,將返回一個相關(guān)請求response對象,這個應答對象如同一個文件對象,所以你可以在Response中調(diào)用.read()。修改代碼如下;
import urllib2
req = urllib2.Request('http://www.baidu.com')
response = urllib2.urlopen(req)
page = response.read()
print page
發(fā)現(xiàn)運行結(jié)果跟修改前一樣。同時在http請求前你還需要做以下事1、發(fā)送表單數(shù)據(jù)。2、設置headers信息。
1、發(fā)送表單數(shù)據(jù);常見于模擬登錄時,一般的在登錄操作時需要發(fā)送數(shù)據(jù)到服務器。這里主要用到post方法,一般的HTML表單,data需要編碼成標準形式。然后做為data參數(shù)傳到Request對象。編碼工作使用urllib的函數(shù)而非urllib2。測試代碼如下
import urllib
import urllib2
url = 'http://www.server.com/register.php'
postData = {'useid' : 'user',
'pwd' : '***',
'language' : 'Python' }
data = urllib.urlencode(postData) # 編碼工作
req = urllib2.Request(url, data) # 發(fā)送請求同時傳data
response = urllib2.urlopen(req) #接受反饋的信息
page = response.read() #讀取反饋的內(nèi)容
同時urllib2還可以使用get方法傳送數(shù)據(jù)。代碼如下;
import urllib2
import urllib
data = {}
data['useid'] = 'user'
data['pwd'] = '***'
data['language'] = 'Python'
values = urllib.urlencode(data)
print values
name=Somebody+Here&language=Python&location=Northampton
url = 'http://www.example.com/example.php'
full_url = url + '?' + url_values
data = urllib2.open(full_url)
2、設置headers信息;有些站點對訪問來源做了限制,所以這里模擬User-Agent頭,代碼如下;
import urllib
import urllib2
url = 'http://www.server.com/register.php'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0'
values = {'useid' : 'user',
'pwd' : '***',
'language' : 'Python' }
headers = { 'User-Agent' : user_agent }
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
page = response.read()
urllib2就介紹到這里啦!
異常處理
通常URLError在沒有網(wǎng)絡連接時或者服務器地址不可達時產(chǎn)生,在這種情況下異常會帶有resaon屬性包含了錯誤號和錯誤信息。如下代碼測試效果;
import urllib
import urllib2
url = 'http://www.server.com/register.php'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0'
values = {'useid' : 'user',
'pwd' : '***',
'language' : 'Python' }
headers = { 'User-Agent' : user_agent }
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
page = response.read()

查閱相關(guān)資料后顯示Errno 10061表示服務器端主動拒絕。
除此之外還有HTTPError,當客戶端與服務器之間建立正常連接時,urllib2將開始處理相關(guān)數(shù)據(jù)。如果遇到不能處理的情況就會產(chǎn)生相應的HTTPError,如網(wǎng)站訪問常見的錯誤碼”404″(頁面無法找到),”403″(請求禁止),和”401″(帶驗證請求)等……HTTP狀態(tài)碼表示HTTP協(xié)議的響應情況,常見的狀態(tài)碼見HTTP狀態(tài)碼詳解。
HTTPError會帶有一個'code'屬性,是服務器發(fā)送的錯誤號。當一個HTTPError產(chǎn)生后服務器會返回一個相關(guān)的錯誤號和錯誤頁面。如下代碼驗證;
import urllib2
req = urllib2.Request('http://www.python.org/callmewhy')
try:
urllib2.urlopen(req)
except urllib2.URLError, e:
print e.code

輸出404代碼,說明找不到頁面。
捕捉異常并處理……實現(xiàn)代碼如下;
#-*- coding:utf-8 -*-
from urllib2 import Request, urlopen, URLError, HTTPError
req = Request('http://www.python.org/callmewhy')
try:
response = urlopen(req)
except URLError, e:
if hasattr(e, 'code'):
print '服務器不能正常響應這個請求!'
print 'Error code: ', e.code
elif hasattr(e, 'reason'):
print '無法與服務器建立連接'
print 'Reason: ', e.reason
else:
print '沒有出現(xiàn)異常'

成功捕捉到異常!
相關(guān)文章
利用python設計圖像加密技術(shù)(Arnold算法)
這篇文章主要介紹了利用python設計圖像加密技術(shù)(Arnold算法),本文將借助Arnold置亂法,講解如何用python從頭至尾設計出一套圖像加密算法,需要的小伙伴可以才參考一下2022-03-03
淺析Python中常見數(shù)據(jù)脫敏技術(shù)應用與對比
數(shù)據(jù)脫敏通過對敏感數(shù)據(jù)進行轉(zhuǎn)換,確保其在保護隱私的同時仍能用于開發(fā),本文為大家整理了一些常見的數(shù)據(jù)脫敏技術(shù),感興趣的小伙伴可以了解下2025-02-02
Python?內(nèi)置模塊?argparse快速入門教程
argparse模塊是Python內(nèi)置的用于命令項選項與參數(shù)解析的模塊,argparse模塊可以讓人輕松編寫用戶友好的命令行接口,能夠幫助程序員為模型定義參數(shù),這篇文章主要介紹了快速入門Python內(nèi)置模塊argparse,需要的朋友可以參考下2023-06-06
獲取python運行輸出的數(shù)據(jù)并解析存為dataFrame實例
這篇文章主要介紹了獲取python運行輸出的數(shù)據(jù)并解析存為dataFrame實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-07-07

