Python 詳解爬取并統(tǒng)計(jì)CSDN全站熱榜標(biāo)題關(guān)鍵詞詞頻流程
前言
最近在出差,發(fā)現(xiàn)住的賓館居然有小強(qiáng)。所以出差無聊之際,寫了點(diǎn)爬蟲的代碼玩玩,問就是應(yīng)景。本篇文章主要是爬取CSDN全站綜合熱榜的100個(gè)標(biāo)題,然后分詞提取關(guān)鍵詞,統(tǒng)計(jì)一下詞頻。
我想了下,對(duì)于其他博主還是有用的,可以看看什么標(biāo)題可以上熱榜,就分享一下吧。順便把我解決各類問題的方法,說一說。
環(huán)境
使用的IDE為:spyder(有看著界面不習(xí)慣的,忍一下,不關(guān)鍵)
頁(yè)面爬取使用chromedriver,至于原因我后面會(huì)說。
分詞器:jieba
爬取頁(yè)面地址:https://blog.csdn.net/rank/list
爬蟲代碼
這里說一下為什么沒有用requests直接獲取頁(yè)面源碼,主要是因?yàn)樵擁?yè)面并不能直接請(qǐng)求出源碼。而是通過頁(yè)面滾動(dòng)到最下方,才可以顯示出全部的100個(gè)排名的文章。

所以我的思路是,使用chromedriver,然后執(zhí)行js實(shí)現(xiàn)滾動(dòng)頁(yè)面到最下方。
這里需要說明一下chromedriver的下載,需要根據(jù)你google瀏覽器的版本來。我的筆記本事mac,可以點(diǎn)擊左上角的Chrome,再點(diǎn)擊關(guān)于Google Chrome看看自己的瀏覽器版本。


分享一下chromedriver的下載地址:google chrome driver下載地址
簡(jiǎn)單說明一下driver的原理,就是模擬瀏覽器打開url的操作,就像我們手點(diǎn)一樣,具體原理改天可以再聊聊。
不廢話了,上爬蟲工具代碼
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 4 17:15:06 2021
@author: huyi
"""
from selenium import webdriver
import time
# =============================================================================
# 爬取動(dòng)態(tài)下滑加載網(wǎng)頁(yè)
# =============================================================================
def pa(url):
driver = webdriver.Chrome('/usr/local/bin/chromedriver')
driver.get(url)
js = '''
let height = 0
let interval = setInterval(() => {
window.scrollTo({
top: height,
behavior: "smooth"
});
height += 500
}, 500);
setTimeout(() => {
clearInterval(interval)
}, 20000);
'''
driver.execute_script(js)
time.sleep(20)
source = driver.page_source
driver.close()
return source
代碼說明
1、代碼主要是一個(gè)工具方法,使用diver打開瀏覽器。然后通過js代碼,模擬向下滾動(dòng)的操作。
2、根據(jù)你的網(wǎng)絡(luò)條件,里面的超時(shí)時(shí)間你可以調(diào)整。避免還沒有滾動(dòng)到最下面就結(jié)束了,因?yàn)槲屹e館的網(wǎng)比較卡,所以設(shè)置的比較大。
3、返回頁(yè)面源碼,為了后面的xpath解析。
驗(yàn)證一下

OK,已經(jīng)拿到了頁(yè)面源碼了。
關(guān)鍵詞提取代碼
我們把關(guān)鍵詞提取的方法也準(zhǔn)備一下。不廢話,上代碼。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 4 21:53:22 2021
@author: huyi
"""
import jieba.analyse
def get_key_word(sentence):
result_dic = {}
words_lis = jieba.analyse.extract_tags(
sentence, topK=3, withWeight=True, allowPOS=())
for word, flag in words_lis:
if word in result_dic:
result_dic[word] += 1
else:
result_dic[word] = 1
return result_dic
代碼說明
1、簡(jiǎn)單說明一下,方法取的是權(quán)重最高的3個(gè)詞,可以按照你的喜歡調(diào)整。
2、把相同的詞做一個(gè)計(jì)數(shù),方便把100的標(biāo)題關(guān)鍵詞詞頻統(tǒng)計(jì)用。
主程序代碼
主程序主要是將源碼中的標(biāo)題,使用lxml進(jìn)行元素提取,獲取標(biāo)題。然后詞頻統(tǒng)計(jì)后輸出結(jié)果文本。
不廢話,上代碼。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 4 14:01:38 2021
@author: huyi
"""
from lxml import etree
from tools.dynamic_page import pa
from tools.analyse_word import get_key_word
csdn_url = 'https://blog.csdn.net/rank/list'
source = etree.HTML(pa(csdn_url))
titles = source.xpath("http://div[@class='hosetitem-title']/a/text()")
key_word_dic = {}
for x in titles:
if x:
for k, v in get_key_word(x).items():
if k.lower() in key_word_dic:
key_word_dic[k.lower()] += v
else:
key_word_dic[k.lower()] = v
word_count_sort = sorted(key_word_dic.items(),
key=lambda x: x[1], reverse=True)
with open('result.txt', mode='w', encoding='utf-8') as f:
for y in word_count_sort:
f.write('{},{}\n'.format(y[0], y[1]))
代碼說明
1、xpath怎么取?google瀏覽器支持右鍵直接copy,但是還是建議了解一下xpath相關(guān)語法。
2、把英文單詞統(tǒng)一小寫,避免重復(fù)。
3、按照詞頻倒序排列輸出的,最多次數(shù)的在前面。
驗(yàn)證結(jié)果

OK,不出意外,java是yyds。
總結(jié)
可以看到最后的統(tǒng)計(jì)里面有一些符號(hào),怎么說?可以通過jieba停用詞去掉,看你怎么篩選了。
申明一下,本文案例僅研究探索使用,不是為了惡意攻擊。
如果本文對(duì)你有作用的話,請(qǐng)不要吝嗇你的贊,謝謝。

以上就是Python 詳解爬取并統(tǒng)計(jì)CSDN全站熱榜標(biāo)題關(guān)鍵詞詞頻流程的詳細(xì)內(nèi)容,更多關(guān)于Python 爬取CSDN的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python列表reverse()函數(shù)使用方法詳解
這篇文章主要詳細(xì)介紹了Python列表reverse()函數(shù)使用方法,文章通過代碼示例講解的非常詳細(xì),對(duì)我們的學(xué)習(xí)或工作有一定的幫助,需要的朋友可以參考下2023-07-07
python調(diào)用chrome實(shí)現(xiàn)網(wǎng)頁(yè)自動(dòng)操作過程
這篇文章主要介紹了python調(diào)用chrome實(shí)現(xiàn)網(wǎng)頁(yè)自動(dòng)操作,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2023-11-11
Python基于opencv的簡(jiǎn)單圖像輪廓形狀識(shí)別(全網(wǎng)最簡(jiǎn)單最少代碼)
這篇文章主要介紹了基于opencv的簡(jiǎn)單圖像輪廓形狀識(shí)別(全網(wǎng)最簡(jiǎn)單最少代碼),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01
Python實(shí)現(xiàn)的遠(yuǎn)程登錄windows系統(tǒng)功能示例
這篇文章主要介紹了Python實(shí)現(xiàn)的遠(yuǎn)程登錄windows系統(tǒng)功能,結(jié)合實(shí)例形式分析了Python基于wmi模塊的遠(yuǎn)程連接與進(jìn)程操作相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下2018-06-06
Python?gRPC流式通信協(xié)議詳細(xì)講解
這篇文章主要介紹了Python?gRPC流式通信協(xié)議,最近幾天在搞golang的grpc,跑通之后想用php作為客戶端調(diào)用一下grpc服務(wù),結(jié)果拉了,一個(gè)php的grpc服務(wù)安裝,搞了好幾天,總算搞定了2022-11-11
Pandas數(shù)據(jù)集的分塊讀取的實(shí)現(xiàn)
本文主要介紹了Pandas數(shù)據(jù)集的分塊讀取的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08

