Python jieba庫用法及實(shí)例解析
1、jieba庫基本介紹
(1)、jieba庫概述
jieba是優(yōu)秀的中文分詞第三方庫
- - 中文文本需要通過分詞獲得單個(gè)的詞語
- - jieba是優(yōu)秀的中文分詞第三方庫,需要額外安裝
- - jieba庫提供三種分詞模式,最簡單只需掌握一個(gè)函數(shù)
(2)、jieba分詞的原理
Jieba分詞依靠中文詞庫
- 利用一個(gè)中文詞庫,確定漢字之間的關(guān)聯(lián)概率
- 漢字間概率大的組成詞組,形成分詞結(jié)果
- 除了分詞,用戶還可以添加自定義的詞組
jieba庫使用說明
(1)、jieba分詞的三種模式
精確模式、全模式、搜索引擎模式
- - 精確模式:把文本精確的切分開,不存在冗余單詞
- - 全模式:把文本中所有可能的詞語都掃描出來,有冗余
- - 搜索引擎模式:在精確模式基礎(chǔ)上,對長詞再次切分
(2)、jieba庫常用函數(shù)

2.jieba應(yīng)用實(shí)例

3.利用jieba庫統(tǒng)計(jì)三國演義中任務(wù)的出場次數(shù)
import jieba
txt = open("D:\\三國演義.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt) # 使用精確模式對文本進(jìn)行分詞
counts = {} # 通過鍵值對的形式存儲詞語及其出現(xiàn)的次數(shù)
for word in words:
if len(word) == 1: # 單個(gè)詞語不計(jì)算在內(nèi)
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語,每出現(xiàn)一次其對應(yīng)的值加 1
items = list(counts.items())#將鍵值對轉(zhuǎn)換成列表
items.sort(key=lambda x: x[1], reverse=True) # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序
for i in range(15):
word, count = items[i]
print("{0:<5}{1:>5}".format(word, count))

統(tǒng)計(jì)了次數(shù)對多前十五個(gè)名詞,曹操不愧是一代梟雄,第一名當(dāng)之無愧,但是我們會發(fā)現(xiàn)得到的數(shù)據(jù)還是需要進(jìn)一步處理,比如一些無用的詞語,一些重復(fù)意思的詞語。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
詳解如何用OpenCV + Python 實(shí)現(xiàn)人臉識別
這篇文章主要介紹了詳解如何用OpenCV + Python 實(shí)現(xiàn)人臉識別,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2017-10-10
Python實(shí)現(xiàn)常見網(wǎng)絡(luò)通信的示例詳解
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)常見網(wǎng)絡(luò)通信的相關(guān)方法,文中的示例代碼講解詳細(xì),感興趣的小伙伴就跟隨小編一起學(xué)習(xí)一下吧2025-04-04
python調(diào)用可執(zhí)行文件.exe的2種實(shí)現(xiàn)方法
Python是一種流行的編程語言,可以輕松地通過腳本調(diào)用各種應(yīng)用程序,本文就詳細(xì)的介紹了python調(diào)用可執(zhí)行文件.exe的2種實(shí)現(xiàn)方法,感興趣的可以了解一下2023-08-08
python創(chuàng)建ArcGIS shape文件的實(shí)現(xiàn)
今天小編就為大家分享一篇python創(chuàng)建ArcGIS shape文件的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12
python 識別登錄驗(yàn)證碼圖片功能的實(shí)現(xiàn)代碼(完整代碼)
這篇文章主要介紹了python 識別登錄驗(yàn)證碼圖片功能,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-07-07
Python對Excel不同的行分別復(fù)制不同的次數(shù)
這篇文章主要介紹了如何利用Python實(shí)現(xiàn)讀取Excel表格文件數(shù)據(jù),并將其中符合我們特定要求的那一行加以復(fù)制指定的次數(shù),感興趣的小伙伴可以學(xué)習(xí)一下2023-07-07
Python中使用print函數(shù)進(jìn)行不換行打印問題
這篇文章主要介紹了Python中使用print函數(shù)進(jìn)行不換行打印問題,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02
Python創(chuàng)建Getter和Setter的方法詳解
Getters?和?Setters?是幫助我們設(shè)置類變量或?qū)傩远鵁o需直接訪問的方法,這篇文章主要和大家介紹了如何在Python中創(chuàng)建Getter和Setter,需要的可以參考下2023-10-10

