Python爬蟲常用小技巧之設(shè)置代理IP
設(shè)置代理IP的原因
我們?cè)谑褂肞ython爬蟲爬取一個(gè)網(wǎng)站時(shí),通常會(huì)頻繁訪問該網(wǎng)站。假如一個(gè)網(wǎng)站它會(huì)檢測(cè)某一段時(shí)間某個(gè)IP的訪問次數(shù),如果訪問次數(shù)過多,它會(huì)禁止你的訪問。所以你可以設(shè)置一些代理服務(wù)器來幫助你做工作,每隔一段時(shí)間換一個(gè)代理,這樣便不會(huì)出現(xiàn)因?yàn)轭l繁訪問而導(dǎo)致禁止訪問的現(xiàn)象。
我們?cè)趯W(xué)習(xí)Python爬蟲的時(shí)候,也經(jīng)常會(huì)遇見所要爬取的網(wǎng)站采取了反爬取技術(shù)導(dǎo)致爬取失敗。高強(qiáng)度、高效率地爬取網(wǎng)頁信息常常會(huì)給網(wǎng)站服務(wù)器帶來巨大壓力,所以同一個(gè)IP反復(fù)爬取同一個(gè)網(wǎng)頁,就很可能被封,所以下面這篇文章講述一個(gè)爬蟲技巧,設(shè)置代理IP
這里介紹一下免費(fèi)獲取代理IP的方法,這個(gè)方法的優(yōu)點(diǎn)就是免費(fèi),但是缺點(diǎn)就是爬取后存在很多不能用的
IP地址取自國(guó)內(nèi)髙匿代理IP網(wǎng)站,西刺代理,我們爬取首頁IP地址就足夠一般使用,或者你也可以爬取第一頁,第二頁…的
配置環(huán)境
- 安裝requests庫
- 安裝bs4庫
- 安裝lxml庫
具體代碼
話不多說直接上代碼吧
from bs4 import BeautifulSoup
import requests
import random
def get_ip_list(url, headers):
web_data = requests.get(url, headers=headers)
soup = BeautifulSoup(web_data.text, 'lxml')
ips = soup.find_all('tr')
ip_list = []
for i in range(1, len(ips)):
ip_info = ips[i]
tds = ip_info.find_all('td')
ip_list.append(tds[1].text + ':' + tds[2].text)
return ip_list
def get_random_ip(ip_list):
proxy_list = []
for ip in ip_list:
proxy_list.append('http://' + ip)
proxy_ip = random.choice(proxy_list)
proxies = {'http': proxy_ip}
return proxies
if __name__ == '__main__':
url = 'http://www.xicidaili.com/nn/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17'
}
ip_list = get_ip_list(url, headers=headers)
proxies = get_random_ip(ip_list)
print(proxies)
函數(shù)get_ip_list(url, headers)傳入url和headers,最后返回一個(gè)IP列表,列表的元素類似122.114.31.177:808格式,這個(gè)列表包括國(guó)內(nèi)髙匿代理IP網(wǎng)站首頁所有IP地址和端口
函數(shù)get_random_ip(ip_list)傳入第一個(gè)函數(shù)得到的列表,返回一個(gè)隨機(jī)的proxies,這個(gè)proxies可以傳入到requests的get方法中,這樣就可以做到每次運(yùn)行都使用不同的IP訪問被爬取的網(wǎng)站,有效地避免了真實(shí)IP被封的風(fēng)險(xiǎn)
proxies的格式是一個(gè)字典: {‘http': ‘http://122.114.31.177:808‘} ,可以將下面的執(zhí)行也封裝為方法
對(duì)于抓取IP這個(gè),西刺代理的服務(wù)器做了反爬處理,如果你頻繁去抓取的話,服務(wù)器會(huì)主動(dòng)返回503錯(cuò)誤,提示block,所以在請(qǐng)求的時(shí)候可以先一次請(qǐng)求完保存一個(gè)文件,來讀取這個(gè)文件,或者爬取一個(gè)ip使用幾分鐘后,再去爬取一次,相當(dāng)于加一個(gè)定時(shí)功能
代理IP的使用
運(yùn)行上面的代碼會(huì)得到一個(gè)隨機(jī)的proxies,把它直接傳入requests的get方法中即可
res = requests.get(url, headers=headers, proxies=proxies)
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
虛擬機(jī)下載python是否需要聯(lián)網(wǎng)
在本篇文章里小編給大家分享的是一篇關(guān)于虛擬機(jī)下載python是否需要聯(lián)網(wǎng)的相關(guān)文章,有需要的朋友們可以參考下。2020-07-07
Python實(shí)現(xiàn)設(shè)計(jì)模式之單例模式詳解
這篇文章主要介紹了Python實(shí)現(xiàn)設(shè)計(jì)模式之單例模式詳解,設(shè)計(jì)模式是指軟件設(shè)計(jì)問題的推薦方案,設(shè)計(jì)模式一般是描述如何組織代碼和使用最佳實(shí)踐來解決常見的設(shè)計(jì)問題,需謹(jǐn)記一點(diǎn):設(shè)計(jì)模式是高層次的方案,并不關(guān)注具體的實(shí)現(xiàn)細(xì)節(jié),比如算法和數(shù)據(jù)結(jié)構(gòu),需要的朋友可以參考下2023-09-09
使用 python pyautogui實(shí)現(xiàn)鼠標(biāo)鍵盤控制功能
pyautogui是一個(gè)可以控制鼠標(biāo)和鍵盤的python庫,類似的還有pywin32。這篇文章主要介紹了python中的pyautogui實(shí)現(xiàn)鼠標(biāo)鍵盤控制功能,需要的朋友可以參考下2019-08-08
python: line=f.readlines()消除line中\(zhòng)n的方法
這篇文章主要介紹了python: line=f.readlines()消除line中\(zhòng)n的方法,需要的朋友可以參考下2018-03-03
Python如何實(shí)現(xiàn)守護(hù)進(jìn)程的方法示例
護(hù)進(jìn)程:通常被定義為一個(gè)后臺(tái)進(jìn)程,而且它不屬于任何一個(gè)終端會(huì)話(terminal session)。許多系統(tǒng)服務(wù)由守護(hù)程序?qū)嵤?;如網(wǎng)絡(luò)服務(wù),打印等。 下面這篇文章給大家分享了Python是如何實(shí)現(xiàn)守護(hù)進(jìn)程的方法示例,需要的朋友可以參考借鑒。2017-02-02
Python可變參數(shù)函數(shù)用法實(shí)例
這篇文章主要介紹了Python可變參數(shù)函數(shù)用法,實(shí)例分析了Python可變參數(shù)函數(shù)的定義與使用技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07

