Python爬蟲谷歌Chrome F12抓包過程原理解析
瀏覽器打開網(wǎng)頁的過程就是爬蟲獲取數(shù)據(jù)的過程,兩者是一樣一樣的。瀏覽器渲染的網(wǎng)頁是豐富多彩的數(shù)據(jù)集合,而爬蟲得到的是網(wǎng)頁的源代碼htm有時候,我們不能在網(wǎng)頁的html代碼里面找到想要的數(shù)據(jù),但是瀏覽器打開的網(wǎng)頁上面卻有這些數(shù)據(jù)。這就是瀏覽器通過ajax技術(shù)異步加載(偷偷下載)了這些數(shù)據(jù)。
大家禁不住要問:那么該如何看到瀏覽器偷偷下載的那些數(shù)據(jù)呢?
答案就是谷歌Chrome瀏覽器的F12快捷鍵,也可以通過鼠標(biāo)右鍵菜單“檢查”(Inspect)打開Chrome自帶的開發(fā)者工具,開發(fā)者工具會出現(xiàn)在瀏覽器網(wǎng)頁的左側(cè)或者是下面(可調(diào)整),它的樣子就是這樣的:

讓我們簡單了解一下它如何使用:
谷歌Chrome抓包:1. 最上面一行菜單
左上角箭頭 用來點擊查看網(wǎng)頁的元素
第二個手機、平板圖標(biāo)是用來模擬移動端顯示網(wǎng)頁
Elements 查看渲染后的網(wǎng)頁標(biāo)簽元素
提醒 是渲染后(包括異步加載的圖片、數(shù)據(jù)等)的完整網(wǎng)頁的html,不是最初下載的那個html。
Console 查看JavaScript的console log信息,寫網(wǎng)頁時比較有用
Sources 顯示網(wǎng)頁源碼、CSS、JavaScript代碼
Network 查看所有加載的請求,對爬蟲很有幫助
后面的暫且不管。
谷歌Chrome抓包:2. 重要區(qū)域
圖中紅框的兩個按鈕比較有用,編號為2的是清空請求記錄;編號3的是保持記錄,這在網(wǎng)頁有重定向的時候很有用
圖中綠色區(qū)域就是加載完整個網(wǎng)頁,瀏覽器的全部請求記錄,包括網(wǎng)址、狀態(tài)、類型等。寫爬蟲時,我們就要在這里尋找線索,提煉金礦。
最下面編號為4的紅框顯示了加載這個網(wǎng)頁,一共請求了181次,數(shù)量是多么地驚人,讓人不禁心疼七瀏覽器來。
點擊一條請求的網(wǎng)址,右側(cè)就會出現(xiàn)新的窗口顯示該條請求的相信信息:

圖中左邊紅框就是點擊的請求網(wǎng)址;綠框就是詳情窗口。
詳情窗口包括,Headers(請求頭)、Preview(預(yù)覽響應(yīng))、Response(服務(wù)器響應(yīng)內(nèi)容)和Timing(耗時)。
Preview、Response 幫助我們查看該條請求是不是有爬蟲想要的數(shù)據(jù);
Headers幫助我們在爬蟲中重建http請求,以便爬蟲得到和瀏覽器一樣的數(shù)據(jù)。
了解和熟練使用Chrome的開發(fā)者工具,大家就如虎添翼可以順利寫出自己的爬蟲啦。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python3光學(xué)字符識別模塊tesserocr與pytesseract的使用詳解
這篇文章主要介紹了python3光學(xué)字符識別模塊tesserocr與pytesseract的使用詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02
python調(diào)用百度AI接口實現(xiàn)人流量統(tǒng)計
這篇文章主要介紹了python調(diào)用百度AI接口實現(xiàn)人流量統(tǒng)計,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-02-02
python利用Excel讀取和存儲測試數(shù)據(jù)完成接口自動化教程
這篇文章主要介紹了python利用Excel讀取和存儲測試數(shù)據(jù)完成接口自動化教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04
python實現(xiàn)socket客戶端和服務(wù)端簡單示例
這篇文章主要介紹了python實現(xiàn)socket客戶端和服務(wù)端簡單示例,需要的朋友可以參考下2014-02-02
Python實現(xiàn)的旋轉(zhuǎn)數(shù)組功能算法示例
這篇文章主要介紹了Python實現(xiàn)的旋轉(zhuǎn)數(shù)組功能算法,結(jié)合實例形式總結(jié)分析了數(shù)組旋轉(zhuǎn)算法的原理與實現(xiàn)技巧,需要的朋友可以參考下2019-02-02
python中print函數(shù)的用法示例與詳細(xì)講解
這篇文章主要給大家介紹了關(guān)于python中print函數(shù)的用法示例與詳細(xì)講解,print()函數(shù)可以將輸出的信息打印出來,即發(fā)送給標(biāo)準(zhǔn)輸出流,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下2024-05-05

