python爬蟲基礎(chǔ)之urllib的使用

更新時(shí)間：2020年12月31日 11:44:09 作者：過去圍觀

這篇文章主要介紹了python爬蟲基礎(chǔ)之urllib的使用，幫助大家更好的理解和使用python，感興趣的朋友可以了解下

一、urllib 和 urllib2的關(guān)系

在python2中，主要使用urllib和urllib2，而python3對(duì)urllib和urllib2進(jìn)行了重構(gòu)，拆分成了urllib.request, urllib.parse, urllib.error，urllib.robotparser等幾個(gè)子模塊，這樣的架構(gòu)從邏輯和結(jié)構(gòu)上說更加合理。urllib庫無需安裝，python3自帶。python 3.x中將urllib庫和urilib2庫合并成了urllib庫。

urllib2.urlopen() 變成了 urllib.request.urlopen()
urllib2.Request() 變成了 urllib.request.Request()
python2中的 cookielib 改為 http.cookiejar.
import http.cookiejar 代替 import cookielib
urljoin 現(xiàn)在對(duì)應(yīng)的函數(shù)是 urllib.parse.urljoin

二、python3下的urllib庫

request，它是最基本的 HTTP 請(qǐng)求模塊，我們可以用它來模擬發(fā)送一請(qǐng)求，只需要給庫方法傳入 URL 還有額外的參數(shù)，就可以模擬實(shí)現(xiàn)這個(gè)過程了。
error ，即異常處理模塊，如果出現(xiàn)請(qǐng)求錯(cuò)誤，我們可以捕獲這些異常，然后進(jìn)行重試或其他操作保證程序不會(huì)意外終止。
parse ，是一個(gè)工具模塊，提供了許多 URL 處理方法，比如拆分、解析、合并等等的方法。
robotparser，主要是用來識(shí)別網(wǎng)站的 robots.txt 文件，然后判斷哪些網(wǎng)站可以爬，哪些網(wǎng)站不可以爬的，其實(shí)用的比較少。

三、request的基礎(chǔ)類

（一）request.urlopen

urlopen方法最主要的參數(shù)就是目標(biāo)網(wǎng)站的url地址，可以使str類型，也可以是一個(gè)request對(duì)象。

get方法請(qǐng)求如下：

from urllib import request,parse
respones = request.urlopen(http://www.baidu.com/)

post方法請(qǐng)求，需要添加data參數(shù)（字典格式），它要是字節(jié)流編碼格式的內(nèi)容，即 bytes 類型，通過 bytes() 方法可以進(jìn)行轉(zhuǎn)化，另外如果傳遞了這個(gè) data 參數(shù)，不添加data參數(shù)就默認(rèn)為 GET 方式請(qǐng)求。

from urllib import request,parse
url = "http://www.baidu.com/"
wd = {'wd':'哇哈哈哈'}
data = bytes(parse.urlencode(wd),'utf-8')
respones = request.urlopen(url,data=data)

（二）request.Request

由于單獨(dú)使用urlopen() 方法的不能添加User-Agent、Cookie等headers信息，需要構(gòu)建一個(gè) Request 類型的對(duì)象，通過構(gòu)造這個(gè)這個(gè)數(shù)據(jù)結(jié)構(gòu)，一方面我們可以將請(qǐng)求獨(dú)立成一個(gè)對(duì)象，另一方面可配置參數(shù)更加豐富和靈活。主要參數(shù)有：

url 參數(shù)是請(qǐng)求 URL，這個(gè)是必傳參數(shù)，其他的都是可選參數(shù)。
data 參數(shù)如果要傳必須傳 bytes（字節(jié)流）類型的，如果是一個(gè)字典，可以先用 urllib.parse 模塊里的 urlencode() 編碼。
headers 參數(shù)是一個(gè)字典，這個(gè)就是 Request Headers 了，你可以在構(gòu)造 Request 時(shí)通過 headers 參數(shù)直接構(gòu)造，也可以通過調(diào)用 Request 實(shí)例的 add_header() 方法來添加, Request Headers 最常用的用法就是通過修改 User-Agent 來偽裝瀏覽器，默認(rèn)的 User-Agent 是 Python-urllib，我們可以通過修改它來偽裝瀏覽器。
origin_req_host 參數(shù)指的是請(qǐng)求方的 host 名稱或者 IP 地址。
unverifiable 參數(shù)指的是這個(gè)請(qǐng)求是否是無法驗(yàn)證的，默認(rèn)是False。意思就是說用戶沒有足夠權(quán)限來選擇接收這個(gè)請(qǐng)求的結(jié)果。例如我們請(qǐng)求一個(gè) HTML 文檔中的圖片，但是我們沒有自動(dòng)抓取圖像的權(quán)限，這時(shí) unverifiable 的值就是 True。
method 參數(shù)是一個(gè)字符串，它用來指示請(qǐng)求使用的方法，比如GET，POST，PUT等等。

通過隨機(jī)的方法，選擇user-agent:

import randomUA_LIST = [
  'Mozilla/5.0 (compatible; U; ABrowse 0.6; Syllable) AppleWebKit/420+ (KHTML, like Gecko)',
  'Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser 1.98.744; .NET CLR 3.5.30729)',
  'Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser 1.98.744; .NET CLR 3.5.30729)',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser; GTB5; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; InfoPath.1; .NET CLR 3.5.30729; .NET CLR 3.0.30618)',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; SV1; Acoo Browser; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; Avant Browser)',
  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)',
  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; GTB5; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; Maxthon; InfoPath.1; .NET CLR 3.5.30729; .NET CLR 3.0.30618)',
  'Mozilla/4.0 (compatible; Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser 1.98.744; .NET CLR 3.5.30729); Windows NT 5.1; Trident/4.0)',
  'Mozilla/4.0 (compatible; Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB6; Acoo Browser; .NET CLR 1.1.4322; .NET CLR 2.0.50727); Windows NT 5.1; Trident/4.0; Maxthon; .NET CLR 2.0.50727; .NET CLR 1.1.4322; InfoPath.2)',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser; GTB6; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; InfoPath.1; .NET CLR 3.5.30729; .NET CLR 3.0.30618)'
]

#隨機(jī)獲取一個(gè)user-agent
user_agent = random.choice(UA_LIST)

添加headers頭部信息的方法1:

url='http://www.baidu.com/'user_agent = random.choice(UA_LIST)
headers = {
  'User-Agent': user_agent
}
req = request.Request(url=url,headers=headers)
respones = request.urlopen(req)

添加headers頭部信息的方法2:

url='http://www.baidu.com'
headers = {
  'User-Agent': user_agent
}
#添加user-agent的方法2
req = request.Request(url)
#請(qǐng)求添加user-agent
req.add_header("User-Agent",user_agent)
#獲取請(qǐng)求的user-agent agent的a要小寫
print(req.get_header("User-agent"))
response = request.urlopen(req)print(respones.read().decode('utf-8'))

三、request的高級(jí)類

在urllib.request模塊里的BaseHandler類，他是所有其他Handler的父類，他是一個(gè)處理器，比如用它來處理登錄驗(yàn)證，處理cookies，代理設(shè)置，重定向等。它提供了直接使用和派生類使用的方法：

add_parent(director)：添加director作為父類
close()：關(guān)閉它的父類
parent()：打開使用不同的協(xié)議或處理錯(cuò)誤
defautl_open(req)：捕獲所有的URL及子類，在協(xié)議打開之前調(diào)用

Handler的子類包括：

HTTPDefaultErrorHandler：用來處理http響應(yīng)錯(cuò)誤，錯(cuò)誤會(huì)拋出HTTPError類的異常
HTTPRedirectHandler：用于處理重定向
HTTPCookieProcessor：用于處理cookies
ProxyHandler：用于設(shè)置代理，默認(rèn)代理為空
HTTPPasswordMgr：永遠(yuǎn)管理密碼，它維護(hù)用戶名和密碼表
HTTPBasicAuthHandler：用戶管理認(rèn)證，如果一個(gè)鏈接打開時(shí)需要認(rèn)證，可以使用它來實(shí)現(xiàn)驗(yàn)證功能

（一）ProxyHandler

如果爬蟲需要大量爬取網(wǎng)站數(shù)據(jù)，為了避免被封號(hào)，需要使用代理，通過request.build_opener()方法生成一個(gè)opener對(duì)象，添加代理的方法如下：

from urllib import request

#代理開關(guān)，表示是否開啟代理
proxyswitch =True

#構(gòu)建一個(gè)handler處理器對(duì)象，參數(shù)是一個(gè)字典類型，包括代理類型和代理服務(wù)器IP+PORT
proxyhandler = request.ProxyHandler({"http":"191.96.42.80:3128"})
#如果是帶用戶名和密碼的代理，格式為{"http":"username:passwd@191.96.42.80:3128"}

#不加代理的handler處理器對(duì)象
nullproxyhandler = request.ProxyHandler()

if proxyswitch:
  opener = request.build_opener(proxyhandler)
else:
  opener = request.build_opener(nullproxyhandler)

req = request.Request("http://www.baidu.com/")

response = opener.open(req)

print(response.read().decode("utf-8"))

（二）ProxyBasicAuthHandler

通過密碼管理器的方法實(shí)現(xiàn)代理服務(wù)器功能

from urllib import request
#代理密碼管理，也可以管理服務(wù)器賬戶密碼

#賬戶密碼
user = "username"
passwd = "passwd"

#代理服務(wù)器
proxyserver = "1.1.1.1:9999"

#構(gòu)建密碼管理對(duì)象，保存需要處理的用戶名和密碼
passmgr = request.HTTPPasswordMgrWithDefaultRealm()

#添加賬戶信息，第一個(gè)參數(shù)realm是與遠(yuǎn)程服務(wù)器相關(guān)的域信息
passmgr.add_password(None,proxyserver,user,passwd)

#構(gòu)建基礎(chǔ)ProxyBasicAuthHandler處理器對(duì)象
proxyauth_handler = request.ProxyBasicAuthHandler(passmgr)

opener = request.build_opener(proxyauth_handler)

req = request.Request("http://www.baidu.com/")

response = opener.open(req)

（三）ProxyBasicAuthHandler

通過密碼管理器的方法實(shí)現(xiàn)web認(rèn)證登陸功能

#web驗(yàn)證
from urllib import request

test = "test"
passwd = "123456"

webserver = "1.1.1.1"

#構(gòu)建密碼管理器handler
passwdmgr = request.HTTPPasswordMgrWithDefaultRealm()
#添加密碼信息
passwdmgr.add_password(None,webserver,test,passwd)

#HTTP基礎(chǔ)驗(yàn)證處理器類
http_authhandler = request.HTTPBasicAuthHandler(passwdmgr)

opener = request.build_opener(http_authhandler)

req = request.Request("http://"+webserver)

response = opener.open(req)

四、Cookie處理

通過http.cookiejar中的HTTPCookieProcessor構(gòu)建cookie處理器對(duì)象，處理cookie信息

import http.cookiejar
from urllib import request,parse
#模擬登陸先post賬戶密碼
#然后保存生成的cookie

#通過CookieJar類構(gòu)件一個(gè)coociejar對(duì)象,從來保存cookie值
cookie = http.cookiejar.CookieJar()

#構(gòu)件cookie處理器對(duì)象，用來處理cookie
cookie_handler = request.HTTPCookieProcessor(cookie)

#構(gòu)件一個(gè)自定義的opener
opener = request.build_opener(cookie_handler)

#通過自定義的opener的addheaders參數(shù)，可以添加HTTP報(bào)頭參數(shù)
opener.addheaders = [("User-Agent","Mozilla/5.0 (compatible; U; ABrowse 0.6; Syllable) AppleWebKit/420+ (KHTML, like Gecko)"),]

#需要登陸的接口
url = 'http://www.renren.com/PLogin.do'

#需要登陸的賬戶密碼
data = {
  "email":"renren賬號(hào)",
  "password":"密碼"
}
#數(shù)據(jù)處理
data = bytes(parse.urlencode(data),'utf-8')
#第一次是POST請(qǐng)求，通過登陸賬戶密碼，得到cookie
req = request.Request(url,data=data)
#發(fā)送第一次POST請(qǐng)求，生成登陸后的cookie
response = opener.open(req)

print(response.read().decode("utf-8"))

#此時(shí)的opener已經(jīng)包含了該鏈接下的cookie，此時(shí)使用該opener就可以直接訪問該站點(diǎn)下其他的網(wǎng)頁而不需要再登陸了
opener.open(http://www.renren.com/PLogin.doxxxxxxxxxxxxx)

以上就是python爬蟲基礎(chǔ)之urllib的使用的詳細(xì)內(nèi)容，更多關(guān)于python 爬蟲urllib的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python爬蟲基礎(chǔ)之urllib的使用

一、urllib 和 urllib2的關(guān)系

二、python3下的urllib庫

三、request的基礎(chǔ)類

（一）request.urlopen

（二）request.Request

通過隨機(jī)的方法，選擇user-agent:

添加headers頭部信息的方法1:

添加headers頭部信息的方法2:

三、request的高級(jí)類

Handler的子類包括：

（一）ProxyHandler

（二）ProxyBasicAuthHandler

（三）ProxyBasicAuthHandler

四、Cookie處理

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python爬蟲基礎(chǔ)之urllib的使用

一、urllib 和 urllib2的關(guān)系

二、python3下的urllib庫

三、request的基礎(chǔ)類

（一）request.urlopen

（二）request.Request

通過隨機(jī)的方法，選擇user-agent:

添加headers頭部信息的方法1:

添加headers頭部信息的方法2:

三、request的高級(jí)類

Handler的子類包括：

（一）ProxyHandler

（二）ProxyBasicAuthHandler

（三）ProxyBasicAuthHandler

四、Cookie處理

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

一、urllib 和 urllib2的關(guān)系

二、python3下的urllib庫

三、request的基礎(chǔ)類

通過隨機(jī)的方法，選擇user-agent:

三、request的高級(jí)類

四、Cookie處理