詳解Selenium-webdriver繞開反爬蟲機制的4種方法

更新時間：2020年10月28日 11:16:29 作者：hulaooo

這篇文章主要介紹了詳解Selenium-webdriver繞開反爬蟲機制的4種方法，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

之前爬美團外賣后臺的時候出現(xiàn)的問題，各種方式拖動驗證碼都無法成功，包括直接控制拉動，模擬人工軌跡的隨機拖動都失敗了，最后發(fā)現(xiàn)只要用chrome driver打開頁面，哪怕手動登錄也不可以，猜測driver肯定是直接被識別出來了。一開始嘗試了改user agent等方式，仍然不行，由于其他項目就擱置了。今天爬淘寶生意參謀又出現(xiàn)這個問題，經(jīng)百度才知道原來chrome driver的變量有一個特征碼，網(wǎng)站可以直接根據(jù)特征碼判斷，經(jīng)百度發(fā)現(xiàn)有4種方法可以解決，記錄一下自己做的嘗試。

1、mitproxy攔截請求 √

本質(zhì)上就是在響應中利用mitproxy將包含的webdriver的JS中的關鍵字替換成其他的字符
1.給本機設置代理ip 127.0.0.1端口8001（為了讓所有流量走mitmproxy）具體方法請百度。
2.啟動mitmproxy。

windows：

mitmdump -p 8001

3.打開chrome的開發(fā)者工具，查各個.js文件，是否存在driver字樣，最終找到需要的.js文件。

4.干擾腳本

def response(flow): 
  if '/js/yoda.' in flow.request.url:
  for webdriver_key in ['webdriver', '__driver_evaluate', '__webdriver_evaluate', '__selenium_evaluate', '__fxdriver_evaluate', '__driver_unwrapped', '__webdriver_unwrapped', '__selenium_unwrapped', '__fxdriver_unwrapped', '_Selenium_IDE_Recorder', '_selenium', 'calledSelenium', '_WEBDRIVER_ELEM_CACHE', 'ChromeDriverw', 'driver-evaluate', 'webdriver-evaluate', 'selenium-evaluate', 'webdriverCommand', 'webdriver-evaluate-response', '__webdriverFunc', '__webdriver_script_fn', '__$webdriverAsyncExecutor', '__lastWatirAlert', '__lastWatirConfirm', '__lastWatirPrompt', '$chrome_asyncScriptInfo', '$cdc_asdjflasutopfhvcZLmcfl_' ]:
   ctx.log.info('Remove "{}" from {}.'.format(
   webdriver_key, flow.request.url
   )) 
  flow.response.text = flow.response.text.replace('"{}"'.format(webdriver_key), '"NO-SUCH-ATTR"') 
 flow.response.text = flow.response.text.replace('t.webdriver', 'false')
 flow.response.text = flow.response.text.replace('ChromeDriver', '')

5.退出剛才的mitmproxy狀態(tài)，重新用命令行啟動mitmproxy干擾腳本監(jiān)聽8001端口的請求與響應。

mitmdump -s DriverPass.py -p 8001

2、修改源碼 ×

修改js/call_function.js,129行。

 var doc = opt_doc || document;
 var key = '$cdc_asdjflasutopfhvcZLmcfl_';
 if (!(key in doc))
 doc[key] = new Cache();
 return doc[key];
}

–>修改后

function getPageCache(opt_doc) {
 var doc = opt_doc || document;
 var key = ‘$bobo_zhangyx_';
if (!(key in doc))
 doc[key] = new Cache();
 return doc[key];
 }

經(jīng)測試似乎已失效，可能由于版本迭代問題。

3、手動打開跑程序√

cmd 運行命令

chrome.exe --remote-debugging-port=9222

打開一個瀏覽器，然后py代碼里

chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")

4、換V63之前的chrome與driver

(似乎也是個好方法但是沒有嘗試）

到此這篇關于詳解Selenium-webdriver繞開反爬蟲機制的4種方法的文章就介紹到這了,更多相關Selenium webdriver 反爬蟲內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python中如何自定義函數(shù)
這篇文章主要介紹了Python中如何自定義函數(shù)，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-01-01
Python檢查端口是否打開的七種方法總結(jié)
在信息安全領域,端口掃描是一項常見的技術,用于逐個檢測目標主機上的端口是否開放,這篇文章主要給大家介紹了關于Python檢查端口是否打開的七種方法總結(jié),需要的朋友可以參考下
2023-12-12
Python實現(xiàn)操縱控制windows注冊表的方法分析
這篇文章主要介紹了Python實現(xiàn)操縱控制windows注冊表的方法,結(jié)合實例形式分析了Python使用_winreg模塊以及win32api模塊針對Windows注冊表操作相關實現(xiàn)技巧,需要的朋友可以參考下
2019-05-05
Python二維碼生成識別實例詳解
這篇文章主要介紹了Python二維碼生成識別實例詳解,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-07-07
在python中的socket模塊使用代理實例
這篇文章主要介紹了在python中的socket模塊使用代理實例,調(diào)用socks.setdefaultproxy即可實現(xiàn),需要的朋友可以參考下
2014-05-05
Python 敏感詞過濾的實現(xiàn)示例
本文主要介紹了Python 敏感詞過濾的實現(xiàn)示例，文中通過示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-08-08
Python深度學習pytorch神經(jīng)網(wǎng)絡圖像卷積運算詳解
這篇文章主要介紹了Python深度學習關于pytorch神經(jīng)網(wǎng)絡圖像卷積的運算示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助
2021-10-10
python爬蟲學習筆記--BeautifulSoup4庫的使用詳解
這篇文章主要介紹了Python中使用Beautiful Soup庫的超詳細教程,示例代碼基于Python2.x版本,極力推薦!需要的朋友可以參考下
2021-08-08
Python實現(xiàn)處理管道的方法
這篇文章主要介紹了Python實現(xiàn)處理管道的方法,實例分析了Python實現(xiàn)管道調(diào)用子程序的技巧,需要的朋友可以參考下
2015-06-06
PyTorch中的神經(jīng)網(wǎng)絡 Mnist 分類任務
這篇文章主要介紹了PyTorch中的神經(jīng)網(wǎng)絡 Mnist 分類任務,在本次的分類任務當中，我們使用的數(shù)據(jù)集是 Mnist 數(shù)據(jù)集，這個數(shù)據(jù)集大家都比較熟悉，需要的朋友可以參考下
2023-03-03