c# Selenium爬取數(shù)據(jù)時(shí)防止webdriver封爬蟲的方法
背景
大家在使用Selenium + Chromedriver爬取網(wǎng)站信息的時(shí)候,以為這樣就能做到不被網(wǎng)站的反爬蟲機(jī)制發(fā)現(xiàn)。但是實(shí)際上很多參數(shù)和實(shí)際瀏覽器還是不一樣的,只要網(wǎng)站進(jìn)行判斷處理,就能輕輕松松識(shí)別你是否使用了Selenium + Chromedriver模擬瀏覽器。其中
window.navigator.webdriver
就是很重要的一個(gè)。
問(wèn)題窺探
正常瀏覽器打開是這樣的

模擬器打開是這樣的
ChromeOptions options = null;
IWebDriver driver = null;
try
{
options = new ChromeOptions();
options.AddArguments("--ignore-certificate-errors");
options.AddArguments("--ignore-ssl-errors");
// options.AddExcludedArgument("enable-automation");
// options.AddAdditionalCapability("useAutomationExtension", false);
var listCookie = CookieHelp.GetCookie();
if (listCookie != null)
{
// options.AddArgument("headless");
}
// string ss = @"{ ""source"": ""Object.defineProperty(navigator, 'webdriver', { get: () => undefined})""}";
// options.AddUserProfilePreference("Page.addScriptToEvaluateOnNewDocument", new ssss() { source = " Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) " });
ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory);
service.HideCommandPromptWindow = true;
driver = new ChromeDriver(service, options, TimeSpan.FromSeconds(120));
////session.Page.AddScriptToEvaluateOnNewDocument(new OpenQA.Selenium.DevTools.Page.AddScriptToEvaluateOnNewDocumentCommandSettings()
////{
//// Source = @"Object.defineProperty(navigator, 'webdriver', { get: () => undefined })"
////}
//// );

所以,如果網(wǎng)站通過(guò)js代碼獲取這個(gè)參數(shù),返回值為undefined說(shuō)明是正常的瀏覽器,返回true說(shuō)明用的是Selenium模擬瀏覽器。
解決辦法
那么對(duì)于這種情況,在爬蟲開發(fā)的過(guò)程中如何防止這個(gè)參數(shù)告訴網(wǎng)站你在模擬瀏覽器呢?執(zhí)行對(duì)應(yīng)的js,改掉它的值。
IJavaScriptExecutor js = (IJavaScriptExecutor)driver;
string returnjs = (string)js.ExecuteScript("Object.defineProperties(navigator, {webdriver:{get:()=>undefined}});");
運(yùn)行效果

完美,達(dá)到預(yù)期效果。
以上就是c# Selenium爬取數(shù)據(jù)時(shí)防止webdriver封爬蟲的方法的詳細(xì)內(nèi)容,更多關(guān)于c# 防止webdriver封爬蟲的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
C#不提升自己程序的權(quán)限實(shí)現(xiàn)操作注冊(cè)表
這篇文章主要介紹了C#不提升自己程序的權(quán)限實(shí)現(xiàn)操作注冊(cè)表的相關(guān)資料,需要的朋友可以參考下2022-12-12
C# lambda表達(dá)式原理定義及實(shí)例詳解
這篇文章主要介紹了C# lambda表達(dá)式原理定義及實(shí)例詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-07-07
C#實(shí)現(xiàn)創(chuàng)建標(biāo)簽PDF文件的示例代碼
標(biāo)簽PDF文件包含描述文檔結(jié)構(gòu)和各種文檔元素順序的元數(shù)據(jù),是一種包含后端提供的可訪問(wèn)標(biāo)記,管理閱讀順序和文檔內(nèi)容表示的邏輯結(jié)構(gòu)的PDF文件。本文將用C#實(shí)現(xiàn)創(chuàng)建標(biāo)簽PDF文件,需要的可以參考一下2022-08-08
C#使用System.Net郵件發(fā)送功能踩過(guò)的坑
這篇文章主要介紹了C#使用System.Net郵件發(fā)送功能踩過(guò)的坑,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11
詳解如何利用C#實(shí)現(xiàn)漢字轉(zhuǎn)拼音功能
這篇文章主要為大家詳細(xì)介紹了如何利用C#實(shí)現(xiàn)漢字轉(zhuǎn)拼音的功能,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)C#有一定的幫助,感興趣的小伙伴可以跟隨小編一起了解一下2022-12-12

