Python采集C站熱榜數(shù)據(jù)實(shí)戰(zhàn)示例

更新時(shí)間：2023年05月05日 11:39:36 作者：極客飛虎

這篇文章主要為大家介紹了Python采集C站熱榜數(shù)據(jù)實(shí)戰(zhàn)示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

前言

大家好，我們今天來爬取c站的熱搜榜，把其文章名稱，鏈接和作者獲取下來，我們保存到本地，我們通過測試，發(fā)現(xiàn)其實(shí)很簡單，我們只要簡單獲取數(shù)據(jù)就可以。沒有加密的東西。

功能實(shí)現(xiàn)

我們話不多說，我們先找到url，也就是請求地址。我們代碼如下：

url = 'https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type=' 
headers = {  
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}  
res = requests.get(url, headers=headers)

我們這里首先定義了一個(gè) url 變量，它表示要訪問的 URL。然后，它定義了一個(gè) headers 變量，其中包含了一些 HTTP 請求頭信息，如 User-Agent 表示 HTTP 請求的 User-Agent。最后，它使用 requests.get() 函數(shù)發(fā)送 HTTP GET 請求，并將 headers 變量作為參數(shù)傳遞給該函數(shù)。

解析數(shù)據(jù)

我們獲取到了內(nèi)容，接下來就是解析數(shù)據(jù)，我們不難發(fā)現(xiàn)這個(gè)是一個(gè)json數(shù)據(jù)，我們直接取值就好了，我們來看看代碼怎么寫。

datas = res.json()['data']   
for data in datas:    
    period = data['period']  
    nickName = data['nickName']  
    articleTitle = data['articleTitle']  
    articleDetailUrl = data['articleDetailUrl']  
    viewCount = data['viewCount']  
    commentCount = data['commentCount']  
    favorCount = data['favorCount']  
    hotRankScore = data['hotRankScore']
    print(period,nickName,articleTitle,avatarUrl,viewCount,favorCount,commentCount,hotRankScore)

我們將從 res.json() 中獲取 data 數(shù)據(jù)，并將其存儲在 datas 變量中。res.json() 返回的是一個(gè)包含多個(gè)字典的對象，每個(gè)字典代表一個(gè)數(shù)據(jù)。

在這個(gè)例子中，res.json() 返回的字典中的 data 字段的值為 [{'period': '1', 'nickName': '', 'articleTitle': '', 'articleDetailUrl': '', 'viewCount': '', 'commentCount': '', 'favorCount': '', 'hotRankScore': '0.08536632385314886', 'avatarUrl': 'null', 'viewCount': '0', 'favorCount': '0', 'commentCount': '0', 'hotRankScore': '0.08536633735229816'}]，我們使用這個(gè)數(shù)據(jù)來遍歷 datas 變量中的每個(gè)字典。

在每個(gè)字典中，我們使用 data 字段的值來獲取期數(shù)、昵稱、標(biāo)題、詳細(xì)URL、訪問次數(shù)、評論次數(shù)、喜歡次數(shù)、熱門排名分?jǐn)?shù)。

保存數(shù)據(jù)

now_time =time.strftime('%Y-%m-%d-%H-%M',time.localtime(time.time()))  
f = open(f'{now_time}熱榜數(shù)據(jù).csv', mode='a', encoding='utf-8', newline='')  
csv_writer = csv.DictWriter(f, fieldnames=['日期', '姓名', '文章標(biāo)題', '文章鏈接', '瀏覽量',  
'評論量', '收藏量', '熱榜值'])  
csv_writer.writeheader()

我們首先打開一個(gè)名為 data.csv 的文件，并指定使用 a 模式打開文件。然后，使用 csv.DictWriter() 函數(shù)創(chuàng)建一個(gè) CSV 寫入器，并指定要寫入的列名。在這個(gè)例子中，我們指定了 fieldnames 參數(shù)，它包含了我們要寫入的列名。

接下來，我們使用 csv_writer.writeheader() 方法寫入列名。這個(gè)方法會將列名寫入文件的第一行。

最后，我們使用 csv_writer.writerow() 方法寫入數(shù)據(jù)。

我們先寫入字典。

dit = {'日期': period, '姓名': nickName, '文章標(biāo)題': articleTitle, '文章鏈接': articleDetailUrl, '瀏覽量': viewCount,  
'評論量': commentCount, '收藏量': favorCount, '熱榜值': hotRankScore}  
print(dit)  
csv_writer.writerow(dit)

這段代碼創(chuàng)建了一個(gè)字典dit，其中包含了每個(gè)元素的值。然后，它使用csv_writer.writerow()方法將字典寫入CSV文件中。