如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能
功能要求
這是我們老師的作業(yè) 代碼中都有注釋 要求 詞頻統(tǒng)計(jì)軟件:
1)從文本中讀入數(shù)據(jù):(文件的輸入輸出)
2)不區(qū)分大小寫,去除特殊字符。
3) 統(tǒng)計(jì)單詞 例如:about :10 并統(tǒng)計(jì)總共多少單詞
4)對單詞排序。出現(xiàn)次數(shù)
5)輸出詞頻最高的10個單詞和次數(shù)
6)把統(tǒng)計(jì)結(jié)果存入文本
方法如下
1.文件的讀取,區(qū)分大小寫,去除特殊字符
import re
def getword():
# 讀取文件
f=open('read.txt','r',encoding='utf-8')
# 將大寫轉(zhuǎn)化成小寫
word=f.read().lower()
# 關(guān)閉文件
f.close()
#利用正則除去特殊字符 |\符+
list=re.split('\s+|\,+|\.+|\!+|\:+|\?+|\;+|\(+|\)+|\-+|\_+|\=+|\++|\“+|\、+|\/+|\{+|\}+|\”+|\:+|\。+|\“+|\[+|\]+|\【+|\】+|\—+|\%+|\"+',word)
# 遍歷列表 去除列表中的空格
i = 0
while i < len(list):
if list[i] == '':
list.remove(list[i])
i -= 1
i += 1
# for a in list:
# if a == "":
# list.remove(a)
#用for循環(huán)的話如果存在多個空字符串 其列表會隨時(shí)發(fā)生變化,導(dǎo)致無法正常刪除空字符串 所以在使用for…in循環(huán)遍歷列表時(shí),最好不要對元素進(jìn)行增刪操作
# 對于others'優(yōu)化 如果最后一個字符是‘就將'其去掉
for i in range(len(list)):
l=list[i]
if list[i][-1] == "'":
list[i] = list[i][:-1]
return list
2. 統(tǒng)計(jì),排序
from getfilewords import getword
def statistics():
dict={} #定義一個空的字典,在后面的運(yùn)算中逐步添加數(shù)據(jù)
words=getword()
for word in words: #遍歷整個列表
if word in dict.keys(): #判斷當(dāng)前單詞是否已經(jīng)存在 dict.keys()是已存進(jìn)字典中的單詞
# 補(bǔ)充:keys() 方法用于返回字典中的所有鍵;
# values() 方法用于返回字典中所有鍵對應(yīng)的值;
#詳情見Test1
dict[word]=dict[word]+1 #在當(dāng)前單詞的個數(shù)上加 1
else:
dict[word]=1 #當(dāng)前單詞第一次出現(xiàn)時(shí) 會把單詞寫入dict字典里 格式為 ‘單詞'=1
#排序
w_order=sorted(dict.items(),key=lambda x:x[1],reverse=True)
# print(dict.items())
# dict.items()返回的是列表
# 按字典集合中,每一個元組的第二個元素排列。
# sorted會對dict.items()這個list進(jìn)行遍歷,把list中的每一個元素,也就是每一個tuple()當(dāng)做x傳入匿名函數(shù)lambda x:x[1],函數(shù)返回值為x[1]
# reverse屬性True為降序 False為升序
return w_order #返回排序后的列表
3.結(jié)果寫入文本
from WordStatistics import statistics
def writefile():
w_order=statistics()
f = open('result.txt', 'w',encoding='utf-8')
print("文章單詞總個數(shù):",+len(getword()),file=f)
print("文章單詞總個數(shù):", +len(getword()))
# 寫入文件
print("詞頻最高的10個單詞和次數(shù)",file=f)
print("詞頻最高的10個單詞和次數(shù)")
w_order10=w_order[:10]#將列表的前十位提取并且遍歷 輸出key(單詞)和values(次數(shù))
for key,values in w_order10:
print(key,':',values,file=f)
print(key, ':', values)
#遍歷列表中的所有數(shù)據(jù)
print("統(tǒng)計(jì)結(jié)果",file=f)
for key,values in w_order:
print(key,':',values,file=f)
f.close()#關(guān)閉文件
4.程序入口
import os
from writefile import writefile
print("詞頻統(tǒng)計(jì)軟件")
print("正在統(tǒng)計(jì)中。。。")
print("統(tǒng)計(jì)成功,結(jié)果保存到result.txt")
writefile()
print("程序運(yùn)行結(jié)束")
os.system("pause")
5.運(yùn)行截圖 這是需要統(tǒng)計(jì)的文本

運(yùn)行程序

運(yùn)行結(jié)果

總結(jié)
到此這篇關(guān)于如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能的文章就介紹到這了,更多相關(guān)python實(shí)現(xiàn)詞頻統(tǒng)計(jì)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python實(shí)現(xiàn)簡單中文詞頻統(tǒng)計(jì)示例
- python jieba分詞并統(tǒng)計(jì)詞頻后輸出結(jié)果到Excel和txt文檔方法
- python利用多種方式來統(tǒng)計(jì)詞頻(單詞個數(shù))
- Python實(shí)現(xiàn)統(tǒng)計(jì)英文文章詞頻的方法分析
- python 文本單詞提取和詞頻統(tǒng)計(jì)的實(shí)例
- 詳解Python用三種方式統(tǒng)計(jì)詞頻的方法
- Python jieba 中文分詞與詞頻統(tǒng)計(jì)的操作
- python寫程序統(tǒng)計(jì)詞頻的方法
- Python統(tǒng)計(jì)詞頻并繪制圖片(附完整代碼)
- python中文分詞+詞頻統(tǒng)計(jì)的實(shí)現(xiàn)步驟
相關(guān)文章
python通過PyQt5實(shí)現(xiàn)登錄界面的示例代碼
本文主要介紹了python通過PyQt5實(shí)現(xiàn)登錄界面的示例代碼,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08
python帶參數(shù)打包exe及調(diào)用方式
今天小編就為大家分享一篇python帶參數(shù)打包exe及調(diào)用方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12
Python調(diào)整PDF文檔頁邊距的方法小結(jié)
PDF 文檔中的邊距是指環(huán)繞每頁內(nèi)容的空白區(qū)域,充當(dāng)文本或圖像與頁面邊緣之間的緩沖區(qū),本文將介紹如何使用 Spire.PDF for Python 修改 PDF 文檔的頁邊距,為不同使用場景定制合適的文檔布局,需要的朋友可以參考下2024-05-05
python實(shí)現(xiàn)簡單銀行管理系統(tǒng)
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)簡單銀行管理系統(tǒng),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-10-10

