Python中Jieba進(jìn)行詞頻統(tǒng)計(jì)與關(guān)鍵詞提取
1 詞頻統(tǒng)計(jì)
1.1 簡(jiǎn)單詞頻統(tǒng)計(jì)
1.導(dǎo)入jieba庫(kù)并定義文本
import jieba text = "Python是一種高級(jí)編程語(yǔ)言,廣泛應(yīng)用于人工智能、數(shù)據(jù)分析、Web開(kāi)發(fā)等領(lǐng)域。"
2.對(duì)文本進(jìn)行分詞
words = jieba.cut(text)
這一步會(huì)將文本分成若干個(gè)詞語(yǔ),并返回一個(gè)生成器對(duì)象words,可以使用for循環(huán)遍歷所有的詞語(yǔ)。
3. 統(tǒng)計(jì)詞頻
word_count = {}
for word in words:
if len(word) > 1:
word_count[word] = word_count.get(word, 0) + 1這一步通過(guò)遍歷所有的詞語(yǔ),統(tǒng)計(jì)每個(gè)詞語(yǔ)出現(xiàn)的次數(shù),并保存到一個(gè)字典word_count中。在統(tǒng)計(jì)詞頻時(shí),可以通過(guò)去除停用詞等方式進(jìn)行優(yōu)化,這里只是簡(jiǎn)單地過(guò)濾了長(zhǎng)度小于2的詞語(yǔ)。
4. 結(jié)果輸出
for word, count in word_count.items():
print(word, count)

1.2 加入停用詞
為了更準(zhǔn)確地統(tǒng)計(jì)詞頻,我們可以在詞頻統(tǒng)計(jì)中加入停用詞,以去除一些常見(jiàn)但無(wú)實(shí)際意義的詞語(yǔ)。具體步驟如下:
定義停用詞列表
import jieba # 停用詞列表 stopwords = ['是', '一種', '等']
對(duì)文本進(jìn)行分詞,并過(guò)濾停用詞
text = "Python是一種高級(jí)編程語(yǔ)言,廣泛應(yīng)用于人工智能、數(shù)據(jù)分析、Web開(kāi)發(fā)等領(lǐng)域。" words = jieba.cut(text) words_filtered = [word for word in words if word not in stopwords and len(word) > 1]
統(tǒng)計(jì)詞頻并輸出結(jié)果
word_count = {}
for word in words_filtered:
word_count[word] = word_count.get(word, 0) + 1
for word, count in word_count.items():
print(word, count)加入停用詞后,輸出的結(jié)果是:

可以看到,被停用的一種這個(gè)詞并沒(méi)有顯示出來(lái)。
2 關(guān)鍵詞提取
2.1 關(guān)鍵詞提取原理
與對(duì)詞語(yǔ)進(jìn)行單純計(jì)數(shù)的詞頻統(tǒng)計(jì)不同,jieba提取關(guān)鍵字的原理是基于TF-IDF(Term Frequency-Inverse Document Frequency)算法。TF-IDF算法是一種常用的文本特征提取方法,可以衡量一個(gè)詞語(yǔ)在文本中的重要程度。
具體來(lái)說(shuō),TF-IDF算法包含兩個(gè)部分:
- Term Frequency(詞頻):指一個(gè)詞在文本中出現(xiàn)的次數(shù),通常用一個(gè)簡(jiǎn)單的統(tǒng)計(jì)值表示,例如詞頻、二元詞頻等。詞頻反映了一個(gè)詞在文本中的重要程度,但是忽略了這個(gè)詞在整個(gè)語(yǔ)料庫(kù)中的普遍程度。
- Inverse Document Frequency(逆文檔頻率):指一個(gè)詞在所有文檔中出現(xiàn)的頻率的倒數(shù),用于衡量一個(gè)詞的普遍程度。逆文檔頻率越大,表示一個(gè)詞越普遍,重要程度越低;逆文檔頻率越小,表示一個(gè)詞越獨(dú)特,重要程度越高。
TF-IDF算法通過(guò)綜合考慮詞頻和逆文檔頻率,計(jì)算出每個(gè)詞在文本中的重要程度,從而提取關(guān)鍵字。在jieba中,關(guān)鍵字提取的具體實(shí)現(xiàn)包括以下步驟:
- 對(duì)文本進(jìn)行分詞,得到分詞結(jié)果。
- 統(tǒng)計(jì)每個(gè)詞在文本中出現(xiàn)的次數(shù),計(jì)算出詞頻。
- 統(tǒng)計(jì)每個(gè)詞在所有文檔中出現(xiàn)的次數(shù),計(jì)算出逆文檔頻率。
- 綜合考慮詞頻和逆文檔頻率,計(jì)算出每個(gè)詞在文本中的TF-IDF值。
- 對(duì)TF-IDF值進(jìn)行排序,選取得分最高的若干個(gè)詞作為關(guān)鍵字。
舉個(gè)例子:
F(Term Frequency)指的是某個(gè)單詞在一篇文檔中出現(xiàn)的頻率。計(jì)算公式如下:
T F = ( 單詞在文檔中出現(xiàn)的次數(shù) ) / ( 文檔中的總單詞數(shù) )
例如,在一篇包含100個(gè)單詞的文檔中,某個(gè)單詞出現(xiàn)了10次,則該單詞的TF為
10 / 100 = 0.1
IDF(Inverse Document Frequency)指的是在文檔集合中出現(xiàn)某個(gè)單詞的文檔數(shù)的倒數(shù)。計(jì)算公式如下:
I D F = l o g ( 文檔集合中的文檔總數(shù) / 包含該單詞的文檔數(shù) )
例如,在一個(gè)包含1000篇文檔的文檔集合中,某個(gè)單詞在100篇文檔中出現(xiàn)過(guò),則該單詞的IDF為 l o g ( 1000 / 100 ) = 1.0
TFIDF是將TF和IDF相乘得到的結(jié)果,計(jì)算公式如下:
T F I D F = T F ∗ I D F
需要注意的是,TF-IDF算法只考慮了詞語(yǔ)在文本中的出現(xiàn)情況,而忽略了詞語(yǔ)之間的關(guān)聯(lián)性。因此,在一些特定的應(yīng)用場(chǎng)景中,需要使用其他的文本特征提取方法,例如詞向量、主題模型等。
2.2 關(guān)鍵詞提取代碼
import jieba.analyse
# 待提取關(guān)鍵字的文本
text = "Python是一種高級(jí)編程語(yǔ)言,廣泛應(yīng)用于人工智能、數(shù)據(jù)分析、Web開(kāi)發(fā)等領(lǐng)域。"
# 使用jieba提取關(guān)鍵字
keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True)
# 輸出關(guān)鍵字和對(duì)應(yīng)的權(quán)重
for keyword, weight in keywords:
print(keyword, weight)
在這個(gè)示例中,我們首先導(dǎo)入了jieba.analyse模塊,然后定義了一個(gè)待提取關(guān)鍵字的文本text。接著,我們使用jieba.analyse.extract_tags()函數(shù)提取關(guān)鍵字,其中topK參數(shù)表示需要提取的關(guān)鍵字個(gè)數(shù),withWeight參數(shù)表示是否返回關(guān)鍵字的權(quán)重值。最后,我們遍歷關(guān)鍵字列表,輸出每個(gè)關(guān)鍵字和對(duì)應(yīng)的權(quán)重值。
這段函數(shù)的輸出結(jié)果為:

可以看到,jieba根據(jù)TF-IDF算法提取出了輸入文本中的若干個(gè)關(guān)鍵字,并返回了每個(gè)關(guān)鍵字的權(quán)重值。
到此這篇關(guān)于Python中Jieba進(jìn)行詞頻統(tǒng)計(jì)與關(guān)鍵詞提取的文章就介紹到這了,更多相關(guān)Python Jieba詞頻統(tǒng)計(jì)與關(guān)鍵詞提取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
PyCharm專(zhuān)業(yè)最新版2019.1安裝步驟(含激活碼)
這篇文章主要介紹了PyCharm專(zhuān)業(yè)最新版2019.1安裝步驟(含激活碼),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-10-10
Python使用Peewee創(chuàng)建數(shù)據(jù)庫(kù)的實(shí)現(xiàn)示例
Peewee是一個(gè)簡(jiǎn)單小巧的Python ORM,本文主要介紹了Python使用Peewee創(chuàng)建數(shù)據(jù)庫(kù)的實(shí)現(xiàn)示例,具有一定的參考價(jià)值,感興趣的可以了解一下2023-08-08
Python?使用?pip?安裝?matplotlib?模塊的方法
matplotlib是python中強(qiáng)大的畫(huà)圖模塊,這篇文章主要介紹了Python?使用?pip?安裝?matplotlib?模塊(秒解版),本文給大家介紹的非常詳細(xì),需要的朋友可以參考下2023-02-02
python的pdb調(diào)試命令的命令整理及實(shí)例
這篇文章主要介紹了python的pdb調(diào)試命令的命令整理及實(shí)例的相關(guān)資料,需要的朋友可以參考下2017-07-07

