Python爬蟲突破反爬蟲機(jī)制知識(shí)點(diǎn)總結(jié)
1、構(gòu)建合理的HTTP請(qǐng)求標(biāo)頭。
HTTP的請(qǐng)求頭是一組屬性和配置信息,當(dāng)您發(fā)送一個(gè)請(qǐng)求到網(wǎng)絡(luò)服務(wù)器時(shí)。因?yàn)闉g覽器和Python爬蟲發(fā)送的請(qǐng)求頭不同,反爬行器很可能會(huì)被檢測(cè)到。
2、建立學(xué)習(xí)cookie。
Cookie是一把雙刃劍,有它不行,沒(méi)有它更不行。站點(diǎn)將通過(guò)cookie來(lái)追蹤你的訪問(wèn)情況,如果發(fā)現(xiàn)你有爬蟲行為,將立即中斷您的訪問(wèn),例如,填寫表格時(shí)速度過(guò)快,或在短時(shí)間內(nèi)瀏覽大量網(wǎng)頁(yè)。而且對(duì)cookies的正確處理,也可以避免許多采集問(wèn)題,建議在收集網(wǎng)站的過(guò)程中,檢查一下這些網(wǎng)站生成的cookie,然后想想哪個(gè)是爬蟲需要處理的。
3、正常時(shí)差路徑。
Python爬行器不應(yīng)破壞采集速度的原則,盡可能在每一頁(yè)訪問(wèn)時(shí)間內(nèi)增加一小段間隔,能有效地幫助您避免反爬行。
4、使用代理IP,對(duì)已經(jīng)遇到過(guò)反爬蟲的分布式爬蟲來(lái)說(shuō),使用代理IP將成為您的首選。
談到Python爬蟲的發(fā)展歷史,那簡(jiǎn)直就是與反爬蟲相戀的血淚史。因特網(wǎng)上,有網(wǎng)絡(luò)爬蟲的地方,絕對(duì)少不了反爬蟲的身影。對(duì)網(wǎng)站進(jìn)行反爬蟲的截取,前提是要正確區(qū)分人與網(wǎng)絡(luò)機(jī)器人,發(fā)現(xiàn)可疑目標(biāo)時(shí),通過(guò)限制IP地址等措施,阻止您繼續(xù)訪問(wèn)。
知識(shí)點(diǎn)擴(kuò)展:
python3爬蟲--反爬蟲應(yīng)對(duì)機(jī)制
前言:
反爬蟲更多是一種攻防戰(zhàn),網(wǎng)絡(luò)爬蟲一般有網(wǎng)頁(yè)爬蟲和接口爬蟲的方式;針對(duì)網(wǎng)站的反爬蟲處理來(lái)采取對(duì)應(yīng)的應(yīng)對(duì)機(jī)制,一般需要考慮以下方面:
①訪問(wèn)終端限制:這種可通過(guò)偽造動(dòng)態(tài)的UA實(shí)現(xiàn);
②訪問(wèn)次數(shù)限制:網(wǎng)站一般通過(guò)cookie/IP定位,可通過(guò)禁用cookie,或使用cookie池/IP池來(lái)反制;
③訪問(wèn)時(shí)間限制:延遲請(qǐng)求應(yīng)對(duì);
④盜鏈問(wèn)題:通俗講就是,某個(gè)網(wǎng)頁(yè)的請(qǐng)求是有跡可循的,比如知乎的問(wèn)題回答詳情頁(yè),正常用戶行為必然是先進(jìn)入問(wèn)題頁(yè),在進(jìn)入回答詳情頁(yè),有嚴(yán)格的請(qǐng)求順序,如果之間跳過(guò)前面請(qǐng)求頁(yè)面就有可能被判定為到了,通過(guò)偽造請(qǐng)求頭可以解決這個(gè)問(wèn)題;
具體的反爬蟲策略:
①驗(yàn)證碼
應(yīng)對(duì):簡(jiǎn)單的驗(yàn)證碼可通過(guò)機(jī)器學(xué)習(xí)識(shí)別,準(zhǔn)確率可高達(dá),50-60%;復(fù)雜的可通過(guò)專門的打碼平臺(tái)人工打碼(依據(jù)驗(yàn)證碼的復(fù)雜度,打碼工人平均每碼收1-2分錢)
②封ip(容易誤殺)
應(yīng)對(duì):通過(guò)ip代理池/vps撥號(hào)獲取ip方式,可用低成本的獲取幾十萬(wàn)ip
③滑動(dòng)驗(yàn)證碼:相比常規(guī)的驗(yàn)證碼易被機(jī)器學(xué)習(xí)識(shí)別,滑動(dòng)驗(yàn)證有一定的優(yōu)勢(shì)
應(yīng)對(duì):模擬滑動(dòng)來(lái)驗(yàn)證
④關(guān)聯(lián)上下文/防盜鏈:利用token/cookie的記錄能力,來(lái)關(guān)聯(lián)請(qǐng)求的上下文,通過(guò)判斷請(qǐng)求是否走了完整的流程來(lái)判定是否是爬蟲;重而反爬蟲(知乎,頭條都有該機(jī)制)
應(yīng)對(duì):分析協(xié)議,進(jìn)行全量模擬
⑤javascript 參與運(yùn)算:利用簡(jiǎn)單爬蟲無(wú)法進(jìn)行json運(yùn)算的特征,對(duì)中間結(jié)果進(jìn)行js解析/運(yùn)算
應(yīng)對(duì):可以通過(guò)自帶 js 引擎模塊或直接使用 phantomjs 等無(wú)端瀏覽器進(jìn)行自動(dòng)化解析
⑥session封禁:session請(qǐng)求超過(guò)閾值,從而封禁(容易導(dǎo)致誤殺)
⑦UA封禁:ua請(qǐng)求超過(guò)閾值,從而封禁(容易導(dǎo)致誤殺)
⑧web-fongt反爬蟲機(jī)制:源代碼不展示內(nèi)容,而是提供字符集,在頁(yè)面使用了font-face定義了字符集,并通過(guò)unicode去映射展示
⑨其他:比如代碼混淆、動(dòng)態(tài)加密方案、假數(shù)據(jù)等方式
到此這篇關(guān)于Python爬蟲突破反爬蟲機(jī)制知識(shí)點(diǎn)總結(jié)的文章就介紹到這了,更多相關(guān)Python爬蟲如何突破反爬蟲機(jī)制內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python TinyDB輕量級(jí)文檔導(dǎo)向數(shù)據(jù)庫(kù)輕松存儲(chǔ)訪問(wèn)
這篇文章主要為大家介紹了python TinyDB輕量級(jí)文檔導(dǎo)向數(shù)據(jù)庫(kù)輕松存儲(chǔ)訪問(wèn)數(shù)據(jù)使用探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01
Python中實(shí)現(xiàn)ipaddress網(wǎng)絡(luò)地址的處理
ipaddress庫(kù)提供了處理IPv4與IPv6網(wǎng)絡(luò)地址的類。這些類支持驗(yàn)證,查找網(wǎng)絡(luò)上的地址和主機(jī),以及其他常見的操作,本文就來(lái)介紹一下這些方法的使用,感興趣的一起來(lái)了解一下2021-06-06
Python實(shí)現(xiàn)合并同一個(gè)文件夾下所有PDF文件的方法示例
這篇文章主要介紹了Python實(shí)現(xiàn)合并同一個(gè)文件夾下所有PDF文件的方法,涉及Python針對(duì)pdf文件的讀取、判斷、解密、寫入合并等相關(guān)操作技巧,需要的朋友可以參考下2018-04-04
Python中用函數(shù)作為返回值和實(shí)現(xiàn)閉包的教程
這篇文章主要介紹了Python中用函數(shù)作為返回值和實(shí)現(xiàn)閉包的教程,代碼基于Python2.x版本,需要的朋友可以參考下2015-04-04
JSONLINT:python的json數(shù)據(jù)驗(yàn)證庫(kù)實(shí)例解析
本文介紹的 jsonlint 啟發(fā)自 python 的表單驗(yàn)證工具 wtforms,wtforms 通過(guò)繼承 Form 類也能進(jìn)行 json 數(shù)據(jù)驗(yàn)證,下面通過(guò)一些例子給大家詳細(xì)介紹,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友參考下吧2017-11-11
Tensorflow加載Vgg預(yù)訓(xùn)練模型操作
這篇文章主要介紹了Tensorflow加載Vgg預(yù)訓(xùn)練模型操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-05-05
Python編程中對(duì)文件和存儲(chǔ)器的讀寫示例
這篇文章主要介紹了Python編程中對(duì)文件和存儲(chǔ)器的讀寫示例,包括使用cPickle儲(chǔ)存器存儲(chǔ)對(duì)象的例子,需要的朋友可以參考下2016-01-01
tensorflow實(shí)現(xiàn)加載mnist數(shù)據(jù)集
這篇文章主要為大家詳細(xì)介紹了tensorflow實(shí)現(xiàn)加載mnist數(shù)據(jù)集,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-09-09
基于Python實(shí)現(xiàn)的百度貼吧網(wǎng)絡(luò)爬蟲實(shí)例
這篇文章主要介紹了基于Python實(shí)現(xiàn)的百度貼吧網(wǎng)絡(luò)爬蟲,實(shí)例分析了Python實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的相關(guān)技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2015-04-04

