Python實(shí)現(xiàn)快速計(jì)算詞頻功能示例
本文實(shí)例講述了Python實(shí)現(xiàn)快速計(jì)算詞頻功能。分享給大家供大家參考,具體如下:
這幾天看到一位同事的代碼,方法如下:
def cut_word(body):
temp_dict={}
if body is not None:
temp=jieba.cut(body)
for t in temp:
temp_dict[t]=1
else:
pass
return temp_dict
這個(gè)函數(shù)的功能是,輸入一段字符串,比如:'今天天氣很不錯(cuò)',輸出一個(gè)字典,key為使用結(jié)巴的cut方法之后切分的詞,value為1,如:{'很':1,'今天天氣':1,'不錯(cuò)': 1}。
然后我看到同事的另一個(gè)方法:
def union_dict(x,y):
_keys = set(sum([obj.keys() for obj in [x,y]],[]))
_total = {}
for _key in _keys:
_total[_key] = sum([obj.get(_key,0) for obj in [x,y]])
return _total
是這樣調(diào)用的:
final_dict=reduce(union_dict,result)
result是這樣產(chǎn)生的:
result=df['body'].apply(cut_word)
也就是把df的body列每一行進(jìn)行cut_word函數(shù)操作(即將字符串轉(zhuǎn)換成一個(gè)字典)。
result的類型是series,隨后對(duì)result用reduce函數(shù)進(jìn)行union_dict操作。
union_dict的作用是,輸入兩個(gè)字典,比如{'很':1,'今天天氣':1,'不錯(cuò)': 1}和{'很':1,'今天天氣':1,'差': 1},對(duì)key相同的進(jìn)行value求和,也就是輸出會(huì)變成{'很':2,'今天天氣':2,'不錯(cuò)': 1,'差':1}。
所以這一系列的操作其實(shí)是為了計(jì)算一大堆文字的詞頻數(shù),但同事使用的是對(duì)每一行分別進(jìn)行拆分,生成字典,隨后
對(duì)字典進(jìn)行合并,其實(shí)有些麻煩。
再學(xué)習(xí)自然語言處理的時(shí)候,我了解到nltk有一個(gè)方法,可以直接計(jì)算詞頻,用在此處正好。
# -*- coding:utf-8 -*- import nltk import jieba str = '今天天氣很不錯(cuò)。今天天氣很差' a = list(jieba.cut(str)) cfd = nltk.FreqDist(a)
結(jié)果直接是一個(gè)帶有頻數(shù)的字典:{'很':2,'今天天氣':2,'不錯(cuò)': 1,'很差':1,'。'}
由于同事的函數(shù)cut_word對(duì)每個(gè)詞只計(jì)一次頻數(shù),所以不能直接拼接字符串后調(diào)用FreqDist函數(shù),需要對(duì)每個(gè)cut出來的列表去重,隨后再拼接為大字符串調(diào)用FreqDist,這也比之前寫這兩個(gè)函數(shù)簡單許多。
對(duì)于普通的計(jì)算頻數(shù)的需求來說,這個(gè)函數(shù)能直接解決,十分方便。
更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python數(shù)學(xué)運(yùn)算技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
- python jieba分詞并統(tǒng)計(jì)詞頻后輸出結(jié)果到Excel和txt文檔方法
- python實(shí)現(xiàn)簡單中文詞頻統(tǒng)計(jì)示例
- Python開發(fā)的單詞頻率統(tǒng)計(jì)工具wordsworth使用方法
- python計(jì)算文本文件行數(shù)的方法
- Python計(jì)算程序運(yùn)行時(shí)間的方法
- Python科學(xué)計(jì)算之Pandas詳解
- Python科學(xué)計(jì)算之NumPy入門教程
- Python編程使用NLTK進(jìn)行自然語言處理詳解
- 在Python中使用NLTK庫實(shí)現(xiàn)對(duì)詞干的提取的教程
相關(guān)文章
matplotlib在python上繪制3D散點(diǎn)圖實(shí)例詳解
這篇文章主要介紹了matplotlib在python上繪制3D散點(diǎn)圖實(shí)例詳解,首先介紹了官網(wǎng)的實(shí)例,然后分享了本文簡單代碼示例,具有一定借鑒價(jià)值,需要的朋友可以了解下。2017-12-12
解讀Tensorflow2.0訓(xùn)練損失值降低,但測試正確率基本不變的情況
這篇文章主要介紹了Tensorflow2.0訓(xùn)練損失值降低,但測試正確率基本不變的情況,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06
matplotlib之多邊形選區(qū)(PolygonSelector)的使用
這篇文章主要介紹了matplotlib之多邊形選區(qū)(PolygonSelector)的使用,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-02-02
python 字典 按key值大小 倒序取值的實(shí)例
今天小編就為大家分享一篇python 字典 按key值大小 倒序取值的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-07-07

