詳解selenium + chromedriver 被反爬的解決方法
問題背景:這個問題是在爬取某夕夕商城遇到的問題,原本的方案是用selenium + chromedriver + mitmproxy開心的刷,但是幾天之后,發(fā)現(xiàn)刷不出來了,會直接跳轉(zhuǎn)到登陸界面(很明顯,是遭遇反爬了)
講實(shí)話,這還是第一次用硒被反爬的,于是進(jìn)行大規(guī)模的測試對比。
同臺機(jī)器,用鉻瀏覽器正常訪問是不用跳轉(zhuǎn)到登陸界面的,所以不是IP的問題。再用提琴手抓包對比了一下兩個請求頭,請求頭都是一樣的,所以忽略標(biāo)頭的反爬。
最后通過分析,可能是硒被檢測出來了。于是就去查資料。大概的查到是和webdriver的有關(guān)系的。因?yàn)檫@個在服務(wù)端是可以檢測到的。于是通過fiddler抓包,全局搜索了一下webdriver,發(fā)現(xiàn)在js中果然是有判斷的。導(dǎo)致selenium爬取的時候,被轉(zhuǎn)到登陸界面。
解決方法:mitmproxy
因?yàn)閙itmproxy可以攔截請求,所以在響應(yīng)中,將包含的webdriver的JS中的關(guān)鍵字替換成其他的字符就可以了。
if "/_next/static/js/common_pdd" in flow.request.url:
flow.response.text = flow.response.text.replace("webdriver", "userAgent")
我是這樣替換的。這樣js解析的參數(shù)就變了,問題花刃而解。可以正常爬取數(shù)據(jù)了。
另外國外網(wǎng)上也有很多方法,比如修改webdriver里的一些特定參數(shù)名稱,我嘗試了一下,沒有生效。
到此這篇關(guān)于詳解selenium + chromedriver 被反爬的解決方法的文章就介紹到這了,更多相關(guān)selenium chromedriver反爬內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python+selenium+chromedriver實(shí)現(xiàn)爬蟲示例代碼
- selenium+chromedriver在服務(wù)器運(yùn)行的詳細(xì)教程
- 使用selenium自動控制瀏覽器找不到Chromedriver問題
- 下載與當(dāng)前Chrome對應(yīng)的chromedriver.exe(用于python+selenium)
- python selenium 執(zhí)行完畢關(guān)閉chromedriver進(jìn)程示例
- selenium + ChromeDriver安裝及使用方法
- selenium 安裝與chromedriver安裝的方法步驟
- selenium使用chrome瀏覽器測試(附chromedriver與chrome的對應(yīng)關(guān)系表)
相關(guān)文章
Python接口自動化淺析數(shù)據(jù)驅(qū)動原理
這篇文章主要介紹了Python接口自動化淺析數(shù)據(jù)驅(qū)動原理,文中會詳細(xì)描述怎樣使用openpyxl模塊操作excel及結(jié)合ddt來實(shí)現(xiàn)數(shù)據(jù)驅(qū)動,有需要的朋友可以參考下2021-08-08
python實(shí)現(xiàn)Virginia無密鑰解密
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)Virginia無密鑰解密,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-03-03
Python數(shù)據(jù)可視化Pyecharts庫實(shí)現(xiàn)桑葚圖效果
這篇文章主要介紹了Python數(shù)據(jù)可視化如何使用Pyecharts庫來實(shí)現(xiàn)桑葚圖效果圖,文中給出實(shí)現(xiàn)的示例代碼,有需要的朋友可以借鑒參考想,希望能夠有所幫助2021-09-09
numpy數(shù)組之讀寫文件的實(shí)現(xiàn)
本文主要介紹了numpy數(shù)組之讀寫文件的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02
Python算法的時間復(fù)雜度和空間復(fù)雜度(實(shí)例解析)
算法復(fù)雜度分為時間復(fù)雜度和空間復(fù)雜度,簡單而講時間復(fù)雜度指的是語句執(zhí)行次數(shù),空間復(fù)雜度指的是算法所占的存儲空間,本文通過代碼給大家介紹Python算法的時間復(fù)雜度和空間復(fù)雜度問題,感興趣的朋友一起看看吧2019-11-11
Python爬蟲實(shí)戰(zhàn)之爬取某寶男裝信息
網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動瀏覽、檢索網(wǎng)頁信息的程序或者腳本。網(wǎng)絡(luò)爬蟲能夠自動請求網(wǎng)頁,并將所需要的數(shù)據(jù)抓取下來。本文將為大家介紹如何利用爬蟲獲取某寶男裝信息,感興趣的小伙伴可以了解一下2021-12-12
Python使用wget實(shí)現(xiàn)下載網(wǎng)絡(luò)文件功能示例
這篇文章主要介紹了Python使用wget實(shí)現(xiàn)下載網(wǎng)絡(luò)文件功能,簡單介紹了wget安裝以及Python使用wget下載tar格式網(wǎng)絡(luò)文件并進(jìn)行解壓處理相關(guān)操作技巧,需要的朋友可以參考下2018-05-05

