Python找出文件中使用率最高的漢字實例詳解

更新時間：2015年06月03日 11:57:36 作者：xm1331305

這篇文章主要介紹了Python找出文件中使用率最高的漢字,涉及Python針對字符串與中文的相關操作技巧,需要的朋友可以參考下

本文實例講述了Python找出文件中使用率最高的漢字的方法。分享給大家供大家參考。具體分析如下：

這是我初學Python時寫的，為了簡便，我并沒在排序完后再去掉非中文字符，稍微會影響性能（大約增加了25％的時間）。

# -*- coding: gbk -*- 
import codecs 
from time import time 
from operator import itemgetter 
def top_words(filename, size=10, encoding='gbk'): 
  count = {} 
  for line in codecs.open(filename, 'r', encoding): 
    for word in line: 
      if u'\u4E00' <= word <= u'\u9FA5' or u'\uF900' <= word <= u'\uFA2D': 
        count[word] = 1 + count.get(word, 0) 
  top_words = sorted(count.iteritems(), key=itemgetter(1), reverse=True)[:size] 
  print '\n'.join([u'%s : %s次' % (word, times) for word, times in top_words]) 
begin = time() 
top_words('空之境界.txt') 
print '一共耗時 : %s秒' % (time()-begin)

如果想用上新方法，以及讓join的可讀性更高的話，這樣也是可以的：

# -*- coding: gbk -*- 
import codecs 
from time import time 
from operator import itemgetter 
from heapq import nlargest 
def top_words(filename, size=10, encoding='gbk'): 
  count = {} 
  for line in codecs.open(filename, 'r', encoding): 
    for word in line: 
      if u'\u4E00' <= word <= u'\u9FA5' or u'\uF900' <= word <= u'\uFA2D': 
        count[word] = 1 + count.get(word, 0) 
  top_words = nlargest(size, count.iteritems(), key=itemgetter(1)) 
  for word, times in top_words: 
    print u'%s : %s次' % (word, times) 
begin = time() 
top_words('空之境界.txt') 
print '一共耗時 : %s秒' % (time()-begin)

或者讓行數(shù)更少（好囧的列表綜合）：

# -*- coding: gbk -*- 
import codecs 
from time import time 
from operator import itemgetter 
def top_words(filename, size=10, encoding='gbk'): 
  count = {} 
  for word in [word for word in codecs.open(filename, 'r', encoding).read() if u'\u4E00' <= word <= u'\u9FA5' or u'\uF900' <= word <= u'\uFA2D']: 
    count[word] = 1 + count.get(word, 0) 
  top_words = sorted(count.iteritems(), key=itemgetter(1), reverse=True)[:size] 
  print '\n'.join([u'%s : %s次' % (word, times) for word, times in top_words]) 
begin = time() 
top_words('空之境界.txt') 
print '一共耗時 : %s秒' % (time()-begin)

此外還可以引入with語句，這樣只需一行就能獲得異常安全性。
3者性能幾乎一樣，結果如下：

的 : 17533次
是 : 8581次
不 : 6375次
我 : 6168次
了 : 5586次
一 : 5197次
這 : 4394次
在 : 4264次
有 : 4188次
人 : 4025次
一共耗時 : 0.5秒

引入psyco模塊的成績：

的 : 17533次
是 : 8581次
不 : 6375次
我 : 6168次
了 : 5586次
一 : 5197次
這 : 4394次
在 : 4264次
有 : 4188次
人 : 4025次
一共耗時 : 0.280999898911秒

注：測試文件為778KB的GBK編碼，40余萬字。

希望本文所述對大家的Python程序設計有所幫助。

您可能感興趣的文章:

Python基于LightGBM進行時間序列預測
LightGBM是擴展機器學習系統(tǒng)。是一款基于GBDT（梯度提升決策樹）算法的分布梯度提升框架。其設計思路主要集中在減少數(shù)據對內存與計算性能的使用上，以及減少多機器并行計算時的通訊代價。本文將通過LightGBM進行時間序列預測，感興趣的可以了解一下
2022-03-03
PyTorch中的參數(shù)類torch.nn.Parameter()詳解
這篇文章主要給大家介紹了關于PyTorch中torch.nn.Parameter()的相關資料,要內容包括基礎應用、實用技巧、原理機制等方面,文章通過實例介紹的非常詳細,需要的朋友可以參考下
2022-02-02
詳解基于K-means的用戶畫像聚類模型
這篇文章主要介紹了基于K-means的用戶畫像聚類模型,本文中就是使用one-hot思想將不同維度的數(shù)據利用字典映射的方式將其轉化為數(shù)據向量，需要的朋友可以參考下
2022-05-05
安裝Python的web.py框架并從hello world開始編程
這篇文章主要介紹了安裝Python的web.py框架并從hello world開始編程,web.py的作者年輕的Aaron Swartz已經離世,緬懷大神,需要的朋友可以參考下
2015-04-04
Python學習之函數(shù)的定義與使用詳解
函數(shù)是具有某種特定功能的代碼塊，可以重復使用(在前面數(shù)據類型相關章節(jié)。它使得我們的程序更加模塊化，不需要編寫大量重復的代碼。本文將詳細介紹Python中函數(shù)的定義與使用，感興趣的可以學習一下
2022-03-03
手把手教你Python抓取數(shù)據并可視化
很多小伙伴在提到python數(shù)據可視化的時候第一反應就是matplotlib庫,但實際上python還有很多很好用的數(shù)據可視化的庫,下面這篇文章主要給大家介紹了關于如何利用Python抓取數(shù)據并可視化的相關資料,需要的朋友可以參考下
2022-05-05
Python2.7下安裝Scrapy框架步驟教程
本篇文章主要介紹了Python2.7下安裝Scrapy框架步驟教程，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-12-12
Python箱型圖處理離群點的例子
今天小編就為大家分享一篇Python箱型圖處理離群點的例子，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12
使用pymysql查詢數(shù)據庫,把結果保存為列表并獲取指定元素下標實例
這篇文章主要介紹了使用pymysql查詢數(shù)據庫,把結果保存為列表并獲取指定元素下標實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
Ubuntu中安裝指定Python版本方法詳解(理論上各版本通用)
現(xiàn)在基于linux的發(fā)行版本有很多,有centos,ubuntu等,一般基于linux的衍生系統(tǒng)至少都安裝了Python2版本,但是現(xiàn)在Python已經是3.x版本大行其道了,這篇文章主要給大家介紹了關于Ubuntu中安裝指定Python版本方法的相關資料,理論上各版本通用,需要的朋友可以參考下
2023-06-06