用Python爬取指定關(guān)鍵詞的微博

更新時(shí)間：2021年11月16日 10:10:57 作者：志斌

這篇文章主要介紹了用Python爬取指定關(guān)鍵詞的微博，下面文章圍繞Python爬取指定關(guān)鍵詞的微博的相關(guān)資料展開詳細(xì)內(nèi)容,需要的朋友可以參考一下

一、分析頁面

我們此次選擇的是從移動(dòng)端來對微博進(jìn)行爬取。移動(dòng)端的反爬就是信息校驗(yàn)反爬蟲的cookie反爬蟲，所以我們首先要登陸獲取cookie。

登陸過后我們就可以獲取到自己的cookie了，然后我們來觀察用戶是如何搜索微博內(nèi)容的。

平時(shí)我們都是在這個(gè)地方輸入關(guān)鍵字，來進(jìn)行搜索微博。

我通過在開發(fā)者模式下對這個(gè)頁面觀察發(fā)現(xiàn)，它每次對關(guān)鍵字發(fā)起請求后，就會(huì)返回一個(gè)XHR響應(yīng)。

我們現(xiàn)在已經(jīng)找到數(shù)據(jù)真實(shí)存在的頁面了，那就可以進(jìn)行爬蟲的常規(guī)操作了。

二、數(shù)據(jù)采集

在上面我們已經(jīng)找到了數(shù)據(jù)存儲的真實(shí)網(wǎng)頁，現(xiàn)在我們只需對該網(wǎng)頁發(fā)起請求，然后提取數(shù)據(jù)即可。

1、發(fā)起請求

通過對請求頭進(jìn)行觀察，我們不難構(gòu)造出請求代碼。

代碼如下：

key = input("請輸入爬取關(guān)鍵字:")
for page in range(1,10):
   params = (
       ('containerid', f'100103type=1&q={key}'),
       ('page_type', 'searchall'),
       ('page', str(page)),
   )

   response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)

2、提取數(shù)據(jù)

從上面我們觀察發(fā)現(xiàn)這個(gè)數(shù)據(jù)可以轉(zhuǎn)化成字典來進(jìn)行爬取，但是經(jīng)過我實(shí)際測試發(fā)現(xiàn)，用正則來提取是最為簡單方便的，所以這里展示的是正則提取的方式，有興趣的讀者可以嘗試用字典方式來提取數(shù)據(jù)。

代碼如下：

r = response.text
title = re.findall('"page_title":"(.*?)"',r)
comments_count = re.findall('"comments_count":(.*?),',r)
attitudes_count = re.findall('"attitudes_count":(.*?),',r)
for i in range(len(title)):
   print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在這里有一個(gè)小問題要注意，微博的標(biāo)題是用Unicode編碼的，如果直接爬取存儲，將存儲的是Unicode編碼，在這里要感謝大佬—小明哥的幫助，志斌在網(wǎng)上搜了好多解決方法都沒有成功，最后小明哥一個(gè)簡單的函數(shù)就給解決了，實(shí)在是佩服！

解決方案：用eval()來輸出標(biāo)題，就可以將Unicode轉(zhuǎn)換成漢字了。

三、小結(jié)

1. 本文詳細(xì)介紹了如何用Python指定關(guān)鍵字爬取微博，有興趣的讀者可以嘗試自己動(dòng)手練習(xí)一下。

2. 本文僅供讀者學(xué)習(xí)使用，不做其他用途！

到此這篇關(guān)于用Python爬取指定關(guān)鍵詞的微博的文章就介紹到這了,更多相關(guān)Python爬取指定關(guān)鍵詞的微博內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

用Python爬取指定關(guān)鍵詞的微博

目錄

一、分析頁面

二、數(shù)據(jù)采集

1、發(fā)起請求

2、提取數(shù)據(jù)

三、小結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

用Python爬取指定關(guān)鍵詞的微博

目錄

一、分析頁面

二、數(shù)據(jù)采集

1、發(fā)起請求

2、提取數(shù)據(jù)

三、小結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

一、分析頁面

2、提取數(shù)據(jù)

三、小結(jié)