python利用多種方式來統(tǒng)計詞頻（單詞個數(shù)）

更新時間：2019年05月27日 15:02:50 作者：Sinte-Beuve

這篇文章主要介紹了python利用多種方式來統(tǒng)計詞頻（單詞個數(shù)），小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧

python的思維就是讓我們用盡可能少的代碼來解決問題。對于詞頻的統(tǒng)計，就代碼層面而言，實現(xiàn)的方式也是有很多種的。之所以單獨談到統(tǒng)計詞頻這個問題，是因為它在統(tǒng)計和數(shù)據挖掘方面經常會用到，尤其是處理分類問題上。故在此做個簡單的記錄。

統(tǒng)計的材料如下：

document = [
  'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
 'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
 'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
 'my', 'eyes', "you're", 'under']

直接使用dict來進行統(tǒng)計（遍歷+循環(huán)）

word_count = {}
for word in document:
  if word in word_count:
    word_count[word] += 1
 else:
    word_count[word] = 1

更優(yōu)雅的實現(xiàn)方式

#假如字典中不存在給定的鍵，則返回參數(shù)中提供的默認值；反之，則返回字典中保存的值。
for word in document:
  previous_count = word_count.get(word, 0)
  word_count[word] = previous_count + 1
#可以合并成一行
for word in document:
 word_count[word] = word_count.setdefault(word, 0) + 1

使用defalutdict來實現(xiàn)

# 使用collections中的defalutdict來實現(xiàn)，defalutdict是一種值可以默認設置的dict
from collections import defaultdict
word_count = defaultdict(int)
for word in document:
  word_count[word] += 1

使用Counter

word_counter = Counter(document)

Counter既然是一個計數(shù)器，那么它本身也就具有很多統(tǒng)計的方法。例如，最常見的詞頻統(tǒng)計的排序，可以獲得前n個最高的詞頻。

# 返回前n個最高詞頻，以字典的形式
word_counter.most_common(n)

顯然，使用defalutdict和Counter代碼最簡潔，更能符合python開發(fā)之道。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

七牛云的python sdk 批量刪除資源的操作方法
今天做項目的時候用到七牛云，關于對資源的操作是在后端做的，用的SDK，這篇文章主要介紹了七牛云的python sdk 是如何批量刪除資源的,需要的朋友可以參考下
2021-10-10
Python編程argparse入門淺析
這篇文章主要介紹了Python編程argparse入門淺析，分享了相關代碼，小編覺得還是挺不錯的，具有一定借鑒價值，需要的朋友可以參考下
2018-02-02
pandas中Series的代碼實例解析
這篇文章主要介紹了pandas中Series的代碼實例解析,Series序列，是一種一維的結構，類似于一維列表和ndarray中的一維數(shù)組，但是功能比他們要更為強大，Series由兩部分組成：索引index和數(shù)值values,需要的朋友可以參考下
2023-07-07
Python queue隊列原理與應用案例分析
這篇文章主要介紹了Python queue隊列原理與應用,結合具體案例形式分析了Python queue隊列的原理、功能、實現(xiàn)方法與使用技巧,需要的朋友可以參考下
2019-09-09
python中的標準庫html
html庫是用于解析HTML的一個工具，是python自帶的標準庫之一，今天通過本文給大家介紹下python中的標準庫html，感興趣的朋友一起看看吧
2022-04-04
Python利用pandas和matplotlib實現(xiàn)繪制柱狀折線圖
這篇文章主要為大家詳細介紹了如何使用?Python?中的?Pandas?和?Matplotlib?庫創(chuàng)建一個柱狀圖與折線圖結合的數(shù)據可視化圖表,感興趣的可以了解一下
2023-11-11
Python遠程創(chuàng)建docker容器的方法
這篇文章主要介紹了Python遠程創(chuàng)建docker容器的方法,如果docker??ps找不到該容器,可以使用?docker?ps?-a查看所有的,然后看剛才創(chuàng)建的容器的STATUS是EXIT0還是EXIT1如果是1,那應該是有報錯,使用?docker?logs?容器id命令來查看日志,根據日志進行解決,需要的朋友可以參考下
2024-04-04
flask實現(xiàn)驗證碼并驗證功能
Flask是一個用Python編寫的Web應用程序框架，F(xiàn)lask是python的web框架，最大的特征是輕便，讓開發(fā)者自由靈活的兼容要開發(fā)的feature。這篇文章主要介紹了flask實現(xiàn)驗證碼并驗證,需要的朋友可以參考下
2019-12-12
Python運維自動化psutil模塊的監(jiān)控和管理深入探究
這篇文章主要為大家介紹了Python運維自動化psutil模塊的監(jiān)控和管理深入探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
2024-01-01
代碼詳解Python的函數(shù)基礎(2)
這篇文章主要為大家詳細介紹了Python的函數(shù)基礎，使用了函數(shù)參數(shù)和遞歸函數(shù)，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2022-01-01