Python中文分詞工具之結巴分詞用法實例總結【經(jīng)典案例】
本文實例講述了Python中文分詞工具之結巴分詞用法。分享給大家供大家參考,具體如下:
結巴分詞工具的安裝及基本用法,前面的文章《Python結巴中文分詞工具使用過程中遇到的問題及解決方法》中已經(jīng)有所描述。這里要說的內容與實際應用更貼近——從文本中讀取中文信息,利用結巴分詞工具進行分詞及詞性標注。
示例代碼如下:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #讀取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #進行分詞
result="" #記錄最終結果的變量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加詞性標注
f=open("t_with_POS_tag.txt","w") #將結果保存到另一個文檔中
f.write(result)
f.close()
t2=time.time()
print("分詞及詞性標注完成,耗時:"+str(t2-t1)+"秒。") #反饋結果
其中t_with_splitter.txt文件內容如下:
腳本之家是國內專業(yè)的網(wǎng)站建設資源、腳本編程學習類網(wǎng)站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批處理、網(wǎng)頁制作、網(wǎng)絡編程、網(wǎng)站建設等編程資料。
Python2.7.9平臺運行后出現(xiàn)如下圖所示的錯誤提示:

查閱相關資料后發(fā)現(xiàn),需要在開頭加上:
import sys reload(sys) sys.setdefaultencoding( "utf-8" )
最終代碼應為:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #讀取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #進行分詞
result="" #記錄最終結果的變量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加詞性標注
f=open("t_with_POS_tag.txt","w") #將結果保存到另一個文檔中
f.write(result)
f.close()
t2=time.time()
print("分詞及詞性標注完成,耗時:"+str(t2-t1)+"秒。") #反饋結果
運行成功:

Editplus打開t_with_POS_tag.txt文件如下圖所示:

更多關于Python相關內容可查看本站專題:《Python字典操作技巧匯總》、《Python字符串操作技巧匯總》、《Python常用遍歷技巧總結》、《Python數(shù)據(jù)結構與算法教程》、《Python函數(shù)使用技巧總結》及《Python入門與進階經(jīng)典教程》
希望本文所述對大家Python程序設計有所幫助。
- python實現(xiàn)中文分詞FMM算法實例
- Python中文分詞實現(xiàn)方法(安裝pymmseg)
- Python結巴中文分詞工具使用過程中遇到的問題及解決方法
- python中文分詞教程之前向最大正向匹配算法詳解
- python中文分詞,使用結巴分詞對python進行分詞(實例講解)
- python使用jieba實現(xiàn)中文分詞去停用詞方法示例
- python中文分詞庫jieba使用方法詳解
- Python中文分詞庫jieba,pkusegwg性能準確度比較
- Python3爬蟲中關于中文分詞的詳解
- Python jieba 中文分詞與詞頻統(tǒng)計的操作
- Python中文分詞庫jieba(結巴分詞)詳細使用介紹
相關文章
python獲取http請求響應頭headers中的數(shù)據(jù)的示例
這篇文章主要介紹了python獲取http請求響應頭headers中的數(shù)據(jù),本文通過示例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-02-02
Python3之外部文件調用Django程序操作model等文件實現(xiàn)方式
這篇文章主要介紹了Python3之外部文件調用Django程序操作model等文件實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04
pycharm中:OSError:[WinError?1455]頁面文件太小無法完成操作問題的多種解決方法
這篇文章主要給大家介紹了關于pycharm中:OSError:[WinError?1455]頁面文件太小無法完成操作問題的多種徹底解決方法,文中通過圖文介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2023-02-02
python誤差棒圖errorbar()函數(shù)實例解析
這篇文章主要介紹了python誤差棒圖errorbar()函數(shù)實例解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-02-02
一文詳解Python中Reduce函數(shù)輕松解決復雜數(shù)據(jù)聚合
這篇文章主要為大家介紹了Python中Reduce函數(shù)輕松解決復雜數(shù)據(jù)聚合示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-08-08

