Python中使用urllib2模塊編寫爬蟲的簡單上手示例

更新時間：2016年01月20日 19:29:58 作者：chinajun

這篇文章主要介紹了Python中使用urllib2模塊編寫爬蟲的簡單上手示例,文中還介紹到了相關(guān)異常處理功能的添加,需要的朋友可以參考下

提起python做網(wǎng)絡爬蟲就不得不說到強大的組件urllib2。在python中正是使用urllib2這個組件來抓取網(wǎng)頁的。urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。它以urlopen函數(shù)的形式提供了一個非常簡單的接口。通過下面的代碼簡單感受一下urllib2的功能；

import urllib2 
response = urllib2.urlopen('http://www.baidu.com/') 
html = response.read() 
print html

運行結(jié)果如下；

2016120192758123.jpg (685×440)

查看http://www.baidu.com/源代碼發(fā)現(xiàn)跟以上運行結(jié)果完全一樣。這里的URL除了http:還可以是ftp:或file:
urllib2用一個Request對象來映射提出的HTTP請求。你可以創(chuàng)建一個Request對象，通過調(diào)用urlopen并傳入Request對象，將返回一個相關(guān)請求response對象，這個應答對象如同一個文件對象，所以你可以在Response中調(diào)用.read()。修改代碼如下；

import urllib2 
req = urllib2.Request('http://www.baidu.com') 
response = urllib2.urlopen(req) 
page = response.read() 
print page

發(fā)現(xiàn)運行結(jié)果跟修改前一樣。同時在http請求前你還需要做以下事1、發(fā)送表單數(shù)據(jù)。2、設置headers信息。
1、發(fā)送表單數(shù)據(jù)；常見于模擬登錄時，一般的在登錄操作時需要發(fā)送數(shù)據(jù)到服務器。這里主要用到post方法，一般的HTML表單，data需要編碼成標準形式。然后做為data參數(shù)傳到Request對象。編碼工作使用urllib的函數(shù)而非urllib2。測試代碼如下

import urllib 
import urllib2 
 
url = 'http://www.server.com/register.php' 
 
postData = {'useid' : 'user', 
   'pwd' : '***', 
   'language' : 'Python' } 
 
data = urllib.urlencode(postData) # 編碼工作 
req = urllib2.Request(url, data) # 發(fā)送請求同時傳data 
response = urllib2.urlopen(req) #接受反饋的信息 
page = response.read() #讀取反饋的內(nèi)容

同時urllib2還可以使用get方法傳送數(shù)據(jù)。代碼如下；

import urllib2 
import urllib 
 
data = {} 
 
data['useid'] = 'user' 
data['pwd'] = '***' 
data['language'] = 'Python' 
 
values = urllib.urlencode(data) 
print values 
 
name=Somebody+Here&language=Python&location=Northampton 
url = 'http://www.example.com/example.php' 
full_url = url + '?' + url_values 
 
data = urllib2.open(full_url)

2、設置headers信息；有些站點對訪問來源做了限制，所以這里模擬User-Agent頭，代碼如下；

import urllib 
import urllib2 
 
url = 'http://www.server.com/register.php' 
 
user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0' 
values = {'useid' : 'user', 
   'pwd' : '***', 
   'language' : 'Python' } 
 
headers = { 'User-Agent' : user_agent } 
data = urllib.urlencode(values) 
req = urllib2.Request(url, data, headers) 
response = urllib2.urlopen(req) 
page = response.read()

urllib2就介紹到這里啦！

異常處理
通常URLError在沒有網(wǎng)絡連接時或者服務器地址不可達時產(chǎn)生，在這種情況下異常會帶有resaon屬性包含了錯誤號和錯誤信息。如下代碼測試效果；

import urllib 
import urllib2 
 
url = 'http://www.server.com/register.php' 
 
user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0' 
values = {'useid' : 'user', 
   'pwd' : '***', 
   'language' : 'Python' } 
 
headers = { 'User-Agent' : user_agent } 
data = urllib.urlencode(values) 
req = urllib2.Request(url, data, headers) 
response = urllib2.urlopen(req) 
page = response.read()

2016120192909586.png (685×301)

查閱相關(guān)資料后顯示Errno 10061表示服務器端主動拒絕。
除此之外還有HTTPError，當客戶端與服務器之間建立正常連接時，urllib2將開始處理相關(guān)數(shù)據(jù)。如果遇到不能處理的情況就會產(chǎn)生相應的HTTPError，如網(wǎng)站訪問常見的錯誤碼”404″(頁面無法找到)，”403″(請求禁止)，和”401″(帶驗證請求)等……HTTP狀態(tài)碼表示HTTP協(xié)議的響應情況，常見的狀態(tài)碼見HTTP狀態(tài)碼詳解。
HTTPError會帶有一個'code'屬性，是服務器發(fā)送的錯誤號。當一個HTTPError產(chǎn)生后服務器會返回一個相關(guān)的錯誤號和錯誤頁面。如下代碼驗證；

import urllib2 
 
req = urllib2.Request('http://www.python.org/callmewhy') 
 
try: 
 urllib2.urlopen(req) 
 
except urllib2.URLError, e: 
 
 print e.code

2016120193000644.png (685×238)

輸出404代碼，說明找不到頁面。
捕捉異常并處理……實現(xiàn)代碼如下；

#-*- coding:utf-8 -*-
from urllib2 import Request, urlopen, URLError, HTTPError
 
req = Request('http://www.python.org/callmewhy')
 
try: 
 
 response = urlopen(req) 
 
except URLError, e: 
 
 if hasattr(e, 'code'): 
 
  print '服務器不能正常響應這個請求！' 
 
  print 'Error code: ', e.code 
 
 elif hasattr(e, 'reason'): 
 
  print '無法與服務器建立連接' 
 
  print 'Reason: ', e.reason 
 
 
else: 
 
 print '沒有出現(xiàn)異常'

2016120193030566.png (685×240)