Python第三方庫jieba庫與中文分詞全面詳解
一、什么是jieba庫
jieba是優(yōu)秀的中文分詞第三方庫,由于中文文本之間每個漢字都是連續(xù)書寫的,我們需要通過特定的手段來獲得其中的每個詞組,這種手段叫做分詞,我們可以通過jieba庫來完成這個過程。
二、jieba分詞原理
jieba庫的分詞原理是利用了一個中文詞庫,將待分詞的內(nèi)容與分詞詞庫對比,通過圖結(jié)構(gòu)和動態(tài)規(guī)則劃分方法找到最大概率的詞組。除了分詞,jieba還提供增加自定義中文單詞的功能。
三、jieba庫支持的三種分詞模式
1.精確模式
將句子最精確地分開,適合文本分析;
2.全模式
把句子中所有可以成詞的詞語都掃描出來,速度非??欤遣荒芙鉀Q歧義;
3.搜索引擎模式
在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞
注:對中文分詞來說,jieba庫只需要一行代碼即可。英文文本不存在分詞問題
四、jieba庫常用函數(shù)
| 函數(shù) | 描述 |
|---|---|
| jieba.lcut(s) | 精確模式,返回一個列表值 |
| jieba.lcut(s,cut_all=True) | 全模式,返回一個列表值 |
| jieba.lcut_for_search(s) | 搜索引擎模式,返回一個列表值 |
| jieba.add_word(w) | 向分詞詞典中增加新詞w |
五、jieba實操
首先你需要安裝jieba庫
pip install jieba
練習(xí)一(jieba.lcut)精確模式
jieba.lcut(s)是最常用的中文分詞函數(shù),用于精確模式,將字符串分割成等量的中文詞組。
import jieba
ls = jieba.lcut("我愿意穿過璀璨繁星")
print(ls)

練習(xí)二(jieba.lcut(s,cut_all=True) )全模式
jieba.lcut(s,cut_all=True)用于全模式,將字符串的所有分詞可能列出來,冗余最大。
import jieba
ls = jieba.lcut("人面不知何處去,桃花依舊笑春風(fēng)", cut_all=True)
print(ls)
練習(xí)三(jieba.lcut_for_search)搜索引擎模式
jieba.lcut_for_search該模式首先執(zhí)行精確模式,然后在對其中長詞進(jìn)一步分獲得最終結(jié)果
import jieba
ls1 = jieba.lcut("仰天大笑出門去我輩豈是蓬蒿人")
ls = jieba.lcut_for_search("仰天大笑出門去我輩豈是蓬蒿人")
print(ls1)
print(ls)

練習(xí)四(jieba.add_word(w))增加新詞
import jieba
ls = jieba.lcut_for_search("仰天大笑出門去我輩豈是蓬蒿人")
print(ls)
jieba.add_word("蓬蒿人")
ls1 = jieba.lcut("仰天大笑出門去我輩豈是蓬蒿人")
print(ls1)

小結(jié):精確模式因為不產(chǎn)生冗余,最為常用。
總結(jié)
到此這篇關(guān)于Python第三方庫jieba庫與中文分詞的文章就介紹到這了,更多相關(guān)Python jieba庫與中文分詞內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
pytorch實現(xiàn)CNN卷積神經(jīng)網(wǎng)絡(luò)
這篇文章主要為大家詳細(xì)介紹了pytorch實現(xiàn)CNN卷積神經(jīng)網(wǎng)絡(luò),文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2020-02-02
基于python連接oracle導(dǎo)并出數(shù)據(jù)文件
這篇文章主要介紹了基于python連接oracle導(dǎo)并出數(shù)據(jù)文件,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-04-04
Python3+Pycharm+PyQt5環(huán)境搭建步驟圖文詳解
這篇文章主要介紹了Python3+Pycharm+PyQt5環(huán)境搭建步驟圖文詳解,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下2019-05-05
Python tkinter之ComboBox(下拉框)的使用簡介
這篇文章主要介紹了Python tkinter之ComboBox(下拉框)的使用簡介,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2021-02-02
Python使用SciencePlots庫繪制學(xué)術(shù)圖表詳解
這篇文章主要介紹了Python使用SciencePlots庫繪制學(xué)術(shù)圖表,SciencePlots提供了一系列預(yù)設(shè)的科學(xué)繪圖樣式,能夠幫助研究人員輕松創(chuàng)建專業(yè)的學(xué)術(shù)圖表,需要的朋友可以參考下2025-04-04
Pytorch+PyG實現(xiàn)EdgeCNN過程示例詳解
這篇文章主要為大家介紹了Pytorch+PyG實現(xiàn)EdgeCNN過程示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04
使用pytorch加載并讀取COCO數(shù)據(jù)集的詳細(xì)操作
這篇文章主要介紹了使用pytorch加載并讀取COCO數(shù)據(jù)集,基礎(chǔ)知識包括元祖、字典、數(shù)組,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-05-05


