Python爬蟲DNS解析緩存方法實(shí)例分析
本文實(shí)例講述了Python爬蟲DNS解析緩存方法。分享給大家供大家參考,具體如下:
前言:
這是Python爬蟲中DNS解析緩存模塊中的核心代碼,是去年的代碼了,現(xiàn)在放出來(lái) 有興趣的可以看一下。
一般一個(gè)域名的DNS解析時(shí)間在10~60毫秒之間,這看起來(lái)是微不足道,但是對(duì)于大型一點(diǎn)的爬蟲而言這就不容忽視了。例如我們要爬新浪微博,同個(gè)域名下的請(qǐng)求有1千萬(wàn)(這已經(jīng)不算多的了),那么耗時(shí)在10~60萬(wàn)秒之間,一天才86400秒。也就是說(shuō)單DNS解析這一項(xiàng)就用了好幾天時(shí)間,此時(shí)加上DNS解析緩存,效果就明顯了。
下面直接放代碼,說(shuō)明在后面。
代碼:
# encoding=utf-8
# ---------------------------------------
# 版本:0.1
# 日期:2016-04-26
# 作者:九茶<bone_ace@163.com>
# 開發(fā)環(huán)境:Win64 + Python 2.7
# ---------------------------------------
import socket
# from gevent import socket
_dnscache = {}
def _setDNSCache():
""" DNS緩存 """
def _getaddrinfo(*args, **kwargs):
if args in _dnscache:
# print str(args) + " in cache"
return _dnscache[args]
else:
# print str(args) + " not in cache"
_dnscache[args] = socket._getaddrinfo(*args, **kwargs)
return _dnscache[args]
if not hasattr(socket, '_getaddrinfo'):
socket._getaddrinfo = socket.getaddrinfo
socket.getaddrinfo = _getaddrinfo
說(shuō)明:
其實(shí)也沒什么難度,就是將socket里面的緩存保存下來(lái),避免重復(fù)獲取。
可以將上面的代碼放在一個(gè)dns_cache.py文件里,爬蟲框架里調(diào)用一下這個(gè)_setDNSCache()方法就行了。
需要說(shuō)明一下的是,如果你使用了gevent協(xié)程,并且用上了monkey.patch_all(),要注意此時(shí)爬蟲已經(jīng)改用gevent里面的socket了,DNS解析緩存模塊也應(yīng)該要用gevent的socket才行。
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
- Python模塊域名dnspython解析
- python批量處理多DNS多域名的nslookup解析實(shí)現(xiàn)
- 利用Python+阿里云實(shí)現(xiàn)DDNS動(dòng)態(tài)域名解析的方法
- Python實(shí)現(xiàn)的簡(jiǎn)單dns查詢功能示例
- python實(shí)現(xiàn)域名系統(tǒng)(DNS)正向查詢的方法
- Python中使用scapy模擬數(shù)據(jù)包實(shí)現(xiàn)arp攻擊、dns放大攻擊例子
- Python寫的一個(gè)簡(jiǎn)單DNS服務(wù)器實(shí)例
- python實(shí)現(xiàn)DNS正向查詢、反向查詢的例子
- Python DNS查詢放大攻擊實(shí)現(xiàn)原理解析
相關(guān)文章
Python 確定多項(xiàng)式擬合/回歸的階數(shù)實(shí)例
今天小編就為大家分享一篇Python 確定多項(xiàng)式擬合/回歸的階數(shù)實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12
Pytorch.nn.conv2d 過(guò)程驗(yàn)證方式(單,多通道卷積過(guò)程)
今天小編就為大家分享一篇Pytorch.nn.conv2d 過(guò)程驗(yàn)證方式(單,多通道卷積過(guò)程),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01
Python接口測(cè)試數(shù)據(jù)庫(kù)封裝實(shí)現(xiàn)原理
這篇文章主要介紹了Python接口測(cè)試數(shù)據(jù)庫(kù)封裝實(shí)現(xiàn)原理,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05

