使用python驗(yàn)證代理ip是否可用的實(shí)現(xiàn)方法
在使用爬蟲(chóng)爬取網(wǎng)絡(luò)數(shù)據(jù)時(shí),如果長(zhǎng)時(shí)間對(duì)一個(gè)網(wǎng)站進(jìn)行抓取時(shí)可能會(huì)遇到IP被封的情況,這種情況可以使用代理更換ip來(lái)突破服務(wù)器封IP的限制。
隨手在百度上搜索免費(fèi)代理IP,可以得到一系列的網(wǎng)站,這里我們通過(guò)對(duì)西刺網(wǎng)站的抓取來(lái)舉例。
通過(guò)編寫(xiě)一個(gè)爬蟲(chóng)來(lái)抓取網(wǎng)站上面的IP地址,端口,及類型,把這些信息存到本地。這里不做介紹。
驗(yàn)證代理IP是否可用。原理是使用代理IP訪問(wèn)指定網(wǎng)站,如果返回狀態(tài)為200,表示這個(gè)代理是可以使用的。
# _*_ coding:utf-8 _*_
import urllib2
import re
class TestProxy(object):
def __init__(self):
self.ip = '106.46.136.64'
self.port = '808'
self.url = 'http://www.baidu.com'
self.timeout = 3
self.regex = re.compile(r'baidu.com')
self.run()
def run(self):
self.linkWithProxy()
def linkWithProxy(self):
server = 'http://'+ self.ip + ':'+ self.port
opener = urllib2.build_opener(urllib2.ProxyHandler({'http':server}))
urllib2.install_opener(opener)
try:
response = urllib2.urlopen(self.url, timeout=self.timeout)
except:
print '%s connect failed' % server
return
else:
try:
str = response.read()
except:
print '%s connect failed' % server
return
if self.regex.search(str):
print '%s connect success .......' % server
print self.ip + ':' + self.port
if __name__ == '__main__':
Tp = TestProxy()
也可以使用requests包來(lái)進(jìn)行驗(yàn)證,要少寫(xiě)好多代碼
import requests
try:
requests.get('http://wenshu.court.gov.cn/', proxies={"http":"http://121.31.154.12:8123"})
except:
print 'connect failed'
else:
print 'success'
把驗(yàn)證通過(guò)的IP保存在redis里面,在IP被禁止的時(shí)候可以從redis中取出來(lái)使用。
受@齊俊杰的提醒,添加一種使用telnet來(lái)驗(yàn)證的方法:
import telnetlib
try:
telnetlib.Telnet('127.0.0.1', port='80', timeout=20)
except:
print 'connect failed'
else:
print 'success'
總結(jié)
以上所述是小編給大家介紹的使用python驗(yàn)證代理ip是否可用,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
如何準(zhǔn)確判斷請(qǐng)求是搜索引擎爬蟲(chóng)(蜘蛛)發(fā)出的請(qǐng)求
我們的網(wǎng)站經(jīng)常被各種蜘蛛爬蟲(chóng)光顧,由于這些爬蟲(chóng)都有UserAgent,所以很多朋友使用UserAgent判斷請(qǐng)求的發(fā)起者是否是搜索引擎爬蟲(chóng)的方式是很不準(zhǔn)確的,接下來(lái),通過(guò)本篇文章給大家介紹準(zhǔn)確判斷請(qǐng)求是搜索引擎爬蟲(chóng)(蜘蛛)發(fā)出的請(qǐng)求的方法,需要的朋友可以參考下2015-10-10
使用Python Flask實(shí)現(xiàn)簡(jiǎn)易文件上傳功能
在平時(shí)工作中,文件上傳是一項(xiàng)常見(jiàn)的需求,例如將應(yīng)用異常時(shí)通過(guò)腳本生成的dump文件收集起來(lái)進(jìn)行分析,但實(shí)現(xiàn)起來(lái)卻可能相當(dāng)復(fù)雜,在本文中,我們將探討如何使用Flask實(shí)現(xiàn)文件上傳功能,編寫(xiě)Dockerfile將應(yīng)用程序通過(guò)docker部署,需要的朋友可以參考下2024-05-05
Python進(jìn)行數(shù)據(jù)科學(xué)工作的簡(jiǎn)單入門教程
這篇文章主要介紹了Python進(jìn)行數(shù)據(jù)科學(xué)工作的簡(jiǎn)單入門教程,主要針對(duì)Python發(fā)行版Anaconda進(jìn)行說(shuō)明,需要的朋友可以參考下2015-04-04
Python開(kāi)發(fā)必須掌握的Pip使用全攻略
在這篇文章中,我們將深入探討Python的主要包管理工具——Pip,包括Pip的基本概念、安裝和配置、中國(guó)國(guó)內(nèi)鏡像源的使用等,需要的可以參考一下2023-07-07
python爬蟲(chóng)之Appium爬取手機(jī)App數(shù)據(jù)及模擬用戶手勢(shì)
這篇文章主要介紹了python爬蟲(chóng)怎樣通過(guò)Appium爬取手機(jī)App數(shù)據(jù)及模擬用戶手勢(shì),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-08-08
opencv?python中cv.approxPolyDP函數(shù)詳細(xì)解釋
這篇文章主要給大家介紹了關(guān)于opencv?python中cv.approxPolyDP函數(shù)詳細(xì)解釋的相關(guān)資料,OpenCV中的approxPolyDP()函數(shù)用于對(duì)形狀進(jìn)行逼近,以減少多邊形的頂點(diǎn)數(shù),可以用于對(duì)圖像輪廓點(diǎn)進(jìn)行多邊形擬合,需要的朋友可以參考下2024-01-01
Python優(yōu)秀開(kāi)源項(xiàng)目Rich源碼解析的流程分析
這篇文章主要介紹了Python優(yōu)秀開(kāi)源項(xiàng)目Rich源碼解析,本文通過(guò)實(shí)例圖文相結(jié)合給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-07-07
python pandas loc 布爾索引示例說(shuō)明
loc跟iloc的區(qū)別,首先loc是location的意思,和iloc中i的意思是指integer,所以它只接受整數(shù)作為參數(shù),詳情見(jiàn)下面2022-03-03
如何解決Pycharm運(yùn)行報(bào)錯(cuò)No Python interpreter selected
這篇文章主要介紹了如何解決Pycharm運(yùn)行時(shí)No Python interpreter selected問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-05-05
Python中的defaultdict與__missing__()使用介紹
下面這篇文章主要給大家介紹了關(guān)于Python中defaultdict使用的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧。2018-02-02

