python中繞過(guò)反爬蟲(chóng)的方法總結(jié)
我們?cè)诘巧降耐局?,有不同的路線可以到達(dá)終點(diǎn)。因?yàn)檫x擇的路線不同,上山的難度也有區(qū)別。就像最近幾天教大家獲取數(shù)據(jù)的時(shí)候,斷斷續(xù)續(xù)的講過(guò)header、地址ip等一些的方法。具體的爬取方法相信大家已經(jīng)掌握住,本篇小編主要是給大家進(jìn)行應(yīng)對(duì)反爬蟲(chóng)方法的一個(gè)梳理,在進(jìn)行方法回顧的同時(shí)查漏補(bǔ)缺,建立系統(tǒng)的爬蟲(chóng)知識(shí)框架。
首先分析要爬的網(wǎng)站,本質(zhì)是一個(gè)信息查詢系統(tǒng),提供了搜索頁(yè)面。例如我想獲取某個(gè)case,需要利用這個(gè)case的id或者name字段,才能搜索到這個(gè)case的頁(yè)面。
出于對(duì)安全的考慮,有些網(wǎng)站會(huì)做一些反爬的措施,例如之前講到的需要判斷user-angent和cookies,或者判斷請(qǐng)求的ip是否在短時(shí)間內(nèi)多次訪問(wèn)。該網(wǎng)站用的是知道創(chuàng)宇的安全服務(wù),頻繁訪問(wèn)會(huì)提示ip行為不正常。

瀏覽器本質(zhì)也是一個(gè)應(yīng)用程序,只要ip不被封,既然可以通過(guò)瀏覽器訪問(wèn),那么我們自己寫(xiě)程序來(lái)請(qǐng)求也是應(yīng)該沒(méi)有問(wèn)題的。
一些常見(jiàn)的繞過(guò)反爬蟲(chóng)的措施有:
- 構(gòu)造消息頭:如上所說(shuō)的user-angent和cookies都包含在消息頭當(dāng)中。
- 延長(zhǎng)請(qǐng)求間隔:如果快速頻繁的發(fā)送請(qǐng)求,會(huì)大量搶占服務(wù)器資源,一般這種情況下很容易被網(wǎng)站的安全措施檢測(cè)出來(lái)并且封掉ip。所以適當(dāng)?shù)难娱L(zhǎng)請(qǐng)求間隔,例如隨機(jī)隔2-5秒不等再發(fā)送下一次請(qǐng)求。
- 使用代理ip,解決ip檢測(cè)問(wèn)題。
當(dāng)然常見(jiàn)的反爬蟲(chóng)方法也不止以上的這些,這里只羅列出這常用的三種方法,有概念模糊的可以去往期的文章翻閱,其他的繞過(guò)反爬蟲(chóng)方法
到此這篇關(guān)于python中繞過(guò)反爬蟲(chóng)的方法總結(jié)的文章就介紹到這了,更多相關(guān)python中繞過(guò)反爬蟲(chóng)的方法有哪些內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python練習(xí)之制作企業(yè)獎(jiǎng)金計(jì)算器
在本篇博客中,我們將使用Python代碼解決一個(gè)企業(yè)獎(jiǎng)金計(jì)算的問(wèn)題,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2023-06-06
python如何通過(guò)注冊(cè)表動(dòng)態(tài)管理組件
使用注冊(cè)表的主要優(yōu)勢(shì)是可以在運(yùn)行時(shí)動(dòng)態(tài)創(chuàng)建對(duì)象,從而實(shí)現(xiàn)高度可配置和可擴(kuò)展的設(shè)計(jì),這篇文章主要介紹了python如何通過(guò)注冊(cè)表動(dòng)態(tài)管理組件,需要的朋友可以參考下2024-05-05
詳解如何為eclipse安裝合適版本的python插件pydev
這篇文章主要介紹了詳解如何為eclipse安裝合適版本的python插件pydev,pydev是一款優(yōu)秀的Eclipse插件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-11-11
Python強(qiáng)化練習(xí)之PyTorch opp算法實(shí)現(xiàn)月球登陸器
在面向?qū)ο蟪霈F(xiàn)之前,我們采用的開(kāi)發(fā)方法都是面向過(guò)程的編程(OPP)。面向過(guò)程的編程中最常用的一個(gè)分析方法是“功能分解”。我們會(huì)把用戶需求先分解成模塊,然后把模塊分解成大的功能,再把大的功能分解成小的功能,整個(gè)需求就是按照這樣的方式,最終分解成一個(gè)一個(gè)的函數(shù)2021-10-10
用 Python 元類的特性實(shí)現(xiàn) ORM 框架
利用 Python 元類的特性實(shí)現(xiàn) ORM 框架的 insert 功能,通過(guò)操作類對(duì)象,對(duì)數(shù)據(jù)表進(jìn)行數(shù)據(jù)增加操作。由于 ORM 比較復(fù)雜,也不要重復(fù)造輪子,就完成一個(gè) insert 相類似的ORM,理解其中的道理即可。2021-05-05
centos 安裝Python3 及對(duì)應(yīng)的pip教程詳解
這篇文章主要介紹了centos 安裝Python3 及對(duì)應(yīng)的pip的教程,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-06-06
Python Arrow處理時(shí)間數(shù)據(jù)使用詳解(標(biāo)準(zhǔn)庫(kù)之外另一種選擇)
這篇文章主要介紹了Python標(biāo)準(zhǔn)庫(kù)之外Arrow處理時(shí)間數(shù)據(jù)的另一種選擇使用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01

