Python3爬蟲中關(guān)于Ajax分析方法的總結(jié)

更新時(shí)間：2020年07月10日 14:55:12 作者：愛(ài)喝馬黛茶的安東尼

在本篇文章里小編給大家整理的是一篇關(guān)于Python3爬蟲中關(guān)于Ajax分析方法的總結(jié)，需要的朋友們可以學(xué)習(xí)下。

這里還以前面的微博為例，我們知道拖動(dòng)刷新的內(nèi)容由Ajax加載，而且頁(yè)面的URL沒(méi)有變化，那么應(yīng)該到哪里去查看這些Ajax請(qǐng)求呢？

1. 查看請(qǐng)求

這里還需要借助瀏覽器的開發(fā)者工具，下面以Chrome瀏覽器為例來(lái)介紹。

首先，用Chrome瀏覽器打開微博的鏈接https://m.weibo.cn/u/2830678474，隨后在頁(yè)面中點(diǎn)擊鼠標(biāo)右鍵，從彈出的快捷菜單中選擇“檢查”選項(xiàng)，此時(shí)便會(huì)彈出開發(fā)者工具，如圖6-2所示：

此時(shí)在Elements選項(xiàng)卡中便會(huì)觀察到網(wǎng)頁(yè)的源代碼，右側(cè)便是節(jié)點(diǎn)的樣式。

不過(guò)這不是我們想要尋找的內(nèi)容。切換到Network選項(xiàng)卡，隨后重新刷新頁(yè)面，可以發(fā)現(xiàn)這里出現(xiàn)了非常多的條目，如圖6-3所示。

前面也提到過(guò)，這里其實(shí)就是在頁(yè)面加載過(guò)程中瀏覽器與服務(wù)器之間發(fā)送請(qǐng)求和接收響應(yīng)的所有記錄。

Ajax其實(shí)有其特殊的請(qǐng)求類型，它叫作xhr。在圖6-3中，我們可以發(fā)現(xiàn)一個(gè)名稱以getIndex開頭的請(qǐng)求，其Type為xhr，這就是一個(gè)Ajax請(qǐng)求。用鼠標(biāo)點(diǎn)擊這個(gè)請(qǐng)求，可以查看這個(gè)請(qǐng)求的詳細(xì)信息，如圖6-4所示。

在右側(cè)可以觀察到其Request Headers、URL和Response Headers等信息。其中Request Headers中有一個(gè)信息為X-Requested-With:XMLHttpRequest，這就標(biāo)記了此請(qǐng)求是Ajax請(qǐng)求，如圖6-5所示。

隨后點(diǎn)擊一下Preview，即可看到響應(yīng)的內(nèi)容，它是JSON格式的。這里Chrome為我們自動(dòng)做了解析，點(diǎn)擊箭頭即可展開和收起相應(yīng)內(nèi)容，如圖6-6所示。

觀察可以發(fā)現(xiàn)，這里的返回結(jié)果是我的個(gè)人信息，如昵稱、簡(jiǎn)介、頭像等，這也是用來(lái)渲染個(gè)人主頁(yè)所使用的數(shù)據(jù)。JavaScript接收到這些數(shù)據(jù)之后，再執(zhí)行相應(yīng)的渲染方法，整個(gè)頁(yè)面就渲染出來(lái)了。

另外，也可以切換到Response選項(xiàng)卡，從中觀察到真實(shí)的返回?cái)?shù)據(jù)，如圖6-7所示。

接下來(lái)，切回到第一個(gè)請(qǐng)求，觀察一下它的Response是什么，如圖6-8所示。

這是最原始的鏈接https://m.weibo.cn/u/2830678474返回的結(jié)果，其代碼只有不到50行，結(jié)構(gòu)也非常簡(jiǎn)單，只是執(zhí)行了一些JavaScript。

所以說(shuō)，我們看到的微博頁(yè)面的真實(shí)數(shù)據(jù)并不是最原始的頁(yè)面返回的，而是后來(lái)執(zhí)行JavaScript后再次向后臺(tái)發(fā)送了Ajax請(qǐng)求，瀏覽器拿到數(shù)據(jù)后再進(jìn)一步渲染出來(lái)的。

2. 過(guò)濾請(qǐng)求

接下來(lái)，再利用Chrome開發(fā)者工具的篩選功能篩選出所有的Ajax請(qǐng)求。在請(qǐng)求的上方有一層篩選欄，直接點(diǎn)擊XHR，此時(shí)在下方顯示的所有請(qǐng)求便都是Ajax請(qǐng)求了，如圖6-9所示。

接下來(lái)，不斷滑動(dòng)頁(yè)面，可以看到頁(yè)面底部有一條條新的微博被刷出，而開發(fā)者工具下方也一個(gè)個(gè)地出現(xiàn)Ajax請(qǐng)求，這樣我們就可以捕獲到所有的Ajax請(qǐng)求了。

隨意點(diǎn)開一個(gè)條目，都可以清楚地看到其Request URL、Request Headers、Response Headers、Response Body等內(nèi)容，此時(shí)想要模擬請(qǐng)求和提取就非常簡(jiǎn)單了。

圖6-10所示的內(nèi)容便是我的某一頁(yè)微博的列表信息。

到現(xiàn)在為止，我們已經(jīng)可以分析出來(lái)Ajax請(qǐng)求的一些詳細(xì)信息了，接下來(lái)只需要用程序模擬這些Ajax請(qǐng)求，就可以輕松提取我們所需要的信息了。

在下一節(jié)中，我們用Python實(shí)現(xiàn)Ajax請(qǐng)求的模擬，從而實(shí)現(xiàn)數(shù)據(jù)的抓取。

以上就是Python3爬蟲中關(guān)于Ajax分析方法的總結(jié)的詳細(xì)內(nèi)容，更多關(guān)于Python3爬蟲里Ajax分析方法的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python3爬蟲中關(guān)于Ajax分析方法的總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python3爬蟲中關(guān)于Ajax分析方法的總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕