python獲取代理IP的實例分享

更新時間：2018年05月07日 09:53:02 作者：HelloHaibo

今天小編就為大家分享一篇python獲取代理IP的實例分享，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

平時當我們需要爬取一些我們需要的數據時，總是有些網站禁止同一IP重復訪問，這時候我們就應該使用代理IP，每次訪問前偽裝自己，讓“敵人”無法察覺。

oooooooooooooooOK，讓我們愉快的開始吧！

這個是獲取代理ip的文件，我將它們模塊化，分為三個函數

注：文中會有些英文注釋，是為了寫代碼方便，畢竟英文一兩個單詞就ok了

#!/usr/bin/python
#-*- coding:utf-8 -*-
"""
author:dasuda
"""
import urllib2
import re
import socket
import threading
findIP = [] #獲取的原始IP數據
IP_data = [] #拼接端口后的IP數據
IP_data_checked = [] #檢查可用性后的IP數據
findPORT = [] #IP對應的端口
available_table = [] #可用IP的索引
def getIP(url_target):
 patternIP = re.compile(r'(?<=<td>)[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}')
 patternPORT = re.compile(r'(?<=<td>)[\d]{2,5}(?=</td>)')
 print "now,start to refresh proxy IP..."
 for page in range(1,4):
  url = 'http://www.xicidaili.com/nn/'+str(page)
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"}
  request = urllib2.Request(url=url, headers=headers)
  response = urllib2.urlopen(request)
  content = response.read()
  findIP = re.findall(patternIP,str(content))
  findPORT = re.findall(patternPORT,str(content))
  #assemble the ip and port
  for i in range(len(findIP)):
   findIP[i] = findIP[i] + ":" + findPORT[i]
   IP_data.extend(findIP)
  print('get page', page)
 print "refresh done!!!"
 #use multithreading
 mul_thread_check(url_target)
 return IP_data_checked
def check_one(url_check,i):
 #get lock
 lock = threading.Lock()
 #setting timeout
 socket.setdefaulttimeout(8)
 try:
  ppp = {"http":IP_data[i]}
  proxy_support = urllib2.ProxyHandler(ppp)
  openercheck = urllib2.build_opener(proxy_support)
  urllib2.install_opener(openercheck)
  request = urllib2.Request(url_check)
  request.add_header('User-Agent',"Mozilla/5.0 (Windows NT 10.0; WOW64)")
  html = urllib2.urlopen(request).read()
  lock.acquire()
  print(IP_data[i],'is OK')
  #get available ip index
  available_table.append(i)
  lock.release()
 except Exception as e:
  lock.acquire()
  print('error')
  lock.release()
def mul_thread_check(url_mul_check):
 threads = []
 for i in range(len(IP_data)):
  #creat thread...
  thread = threading.Thread(target=check_one, args=[url_mul_check,i,])
  threads.append(thread)
  thread.start()
  print "new thread start",i
 for thread in threads:
  thread.join()
 #get the IP_data_checked[]
 for error_cnt in range(len(available_table)):
  aseemble_ip = {'http': IP_data[available_table[error_cnt]]}
  IP_data_checked.append(aseemble_ip)
 print "available proxy ip:",len(available_table)

一、getIP(url_target):主要函數傳入參數是：驗證代理IP可用性的網址，推薦ipchina

獲取代理IP，從http://www.xicidaili.com/nn/網站獲取，它是一個提供免費代理IP的網站，但是里面的IP不是全都能用，而且結合你的實際地理位置、網絡情況、訪問的目標服務器等情況，能用的大概不到20%，至少我的情況是這樣。

訪問http://www.xicidaili.com/nn/網站使用正常方式，返回的網頁內容通過正則查詢獲得需要的IP和對應端口，代碼如下：

patternIP = re.compile(r'(?<=<td>)[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}')
patternPORT = re.compile(r'(?<=<td>)[\d]{2,5}(?=</td>)')
...
findIP = re.findall(patternIP,str(content))
findPORT = re.findall(patternPORT,str(content))

關于如何構造正則表達式，可以參考其他的文章：

獲取的IP保存在findIP中，對應的端口在findPORT中，兩者按索引對應，獲取一頁IP正常數量為100.

接下來進行IP和端口拼接

最后進行可用性檢查

二、check_one(url_check,i):線程函數

本次訪問url_check還是使用正常方式訪問，當訪問網頁有返回時，則說明本代理IP可用，則記錄下當前索引值，用于后面將所有可用IP取出。

三、mul_thread_check(url_mul_check):多線程生成

本函數開啟多線程檢查代理IP可用性，每個IP開啟一個線程進行檢查。

本工程直接調用getIP(),并傳入用于檢查可用性的網址，即可返回一個列表，里面是經可用性檢查的ip列表，格式為

['ip1:port1','ip2:port2',....]

以上這篇python獲取代理IP的實例分享就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

python opencv角點檢測連線功能的實現代碼
這篇文章主要介紹了python opencv角點檢測連線功能的實現代碼,本文給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-11-11
Windows安裝多個不同版本Python并切換使用的步驟
這篇文章主要介紹了如何在已安裝Python?3.11的Windows電腦上安裝并切換到Python?3.9,首先下載并安裝Python?3.9,然后通過修改系統(tǒng)環(huán)境變量的Path來優(yōu)先使用Python?3.9,需要的朋友可以參考下
2024-11-11
詳解Python操作RabbitMQ服務器消息隊列的遠程結果返回
RabbitMQ是一款基于MQ的服務器,Python可以通過Pika庫來進行程序操控,這里我們將來詳解Python操作RabbitMQ服務器消息隊列的遠程結果返回:
2016-06-06
Pyspider進行API接口抓取和數據采集的實現
Pyspider是一個基于Python的強大的網絡爬蟲框架,它提供了豐富的功能和靈活的擴展性,使我們可以輕松地進行數據的抓取和處理,本文主要介紹了Pyspider進行API接口抓取和數據采集的實現,感興趣的可以了解一下
2023-09-09
python求質數的3種方法
這篇文章主要為大家詳細介紹了python求質數的多種方法，多種方法求質數的實現代碼，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-09-09
python爬取企查查企業(yè)信息之selenium自動模擬登錄企查查
這篇文章主要介紹了python爬取企查查企業(yè)信息之自動模擬登錄企查查以及selenium獲取headers,selenium獲取cookie,需要的朋友可以參考下
2021-04-04
python實現AES加密和解密
這篇文章主要為大家詳細介紹了python實現AES加密和解密，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2019-03-03
python中尾遞歸用法實例詳解
這篇文章主要介紹了python中尾遞歸用法,較為詳細的分析了尾遞歸原理與相關使用技巧,非常具有實用價值,需要的朋友可以參考下
2015-04-04
初學python數組的處理代碼
初學python數組的處理代碼，學習python的朋友可以參考下。
2011-01-01
探討python??pandas.DataFrame.to_json?函數
這篇文章主要介紹了python??pandas.DataFrame.to_json?函數示例詳解,to_json?函數提供了靈活的參數設置,使得?pandas?數據框能夠以多種格式導出為?JSON?文件,需要的朋友可以參考下
2024-07-07