Python中jieba庫的介紹與使用
前言:
jieba是優(yōu)秀的中文分詞第三方庫,由于中文文本之間每個漢字都是連續(xù)書寫的,我們需要通過特定的手段來獲得其中的每個詞組,這種手段叫做分詞,我們可以通過jieba庫來完成這個過程。
目錄:

一、jieba庫基本介紹
(1)jieba庫概述
① jieba是優(yōu)秀的中文分詞第三方庫
②中文文本需要通過分詞獲得單個的詞語③ jieba是優(yōu)秀的中文分詞第三方庫,需要額外安裝
④jieba庫提供三種分詞模式,最簡單只需掌握一個函數(shù)
(2)jieba分詞的原理
①分詞依靠中文詞庫
② 利用一個中文詞庫,確定漢字之間的關(guān)聯(lián)概率
③ 漢字間概率大的組成詞組,形成分詞結(jié)果
④ 除了分詞,用戶還可以添加自定義的詞組
二、jieba庫使用說明
(1)jieba分詞的三種模式
精確模式、全模式、搜索引擎模式
① jieba.cut(s) 精確模式:把文本精確的切分開,不存在冗余單詞:


② jieba.lcut(s,cut_all=True) 全模式:把文本中所有可能的詞語都掃描出來,有冗余:


③jieba.lcut_for_search(s) 搜索引擎模式:在精確模式基礎(chǔ)上,對長詞再次切分:


三:jieba庫的安裝
因?yàn)?nbsp;jieba 是一個第三方庫,所有需要我們在本地進(jìn)行安裝:
ⅠIDLE中jieba庫的安裝:
Windows 下使用命令安裝:在聯(lián)網(wǎng)狀態(tài)下,在命令行下輸入 pip
install jieba 進(jìn)行安裝,安裝完成后會提示安裝成功。具體過程如圖:
① Win + r 打開運(yùn)行框并輸入cmd打開指令框:

②在指令框輸入“pip install jieba”并按下回車等待下載:


③ 當(dāng)出現(xiàn)“Successfully instll”,則表示安裝成功!
Ⅱ Pycharm中jieba庫的安裝:
打開 settings,搜索 Project Interpreter,在右邊的窗口選擇 + 號,點(diǎn)擊后在搜索框搜索 jieba,點(diǎn)擊安裝即可。具體過程如圖:
① 點(diǎn)擊左上角Files中的Settings:

② [endif]找到“Project”中的“python interpreter”,并點(diǎn)擊其中的“+”:

③在搜索欄中搜索“jieba”,并點(diǎn)擊左下角Install Package:

④ 當(dāng)出現(xiàn)“Successfully instll
jieba”,則表示jieba庫安裝成功!
四:實(shí)例-文本詞頻統(tǒng)計(jì)
Jieba庫最強(qiáng)大的功能之一就是對文章出現(xiàn)的詞匯進(jìn)行計(jì)數(shù)統(tǒng)計(jì),即計(jì)算詞頻,對于一篇文章或者一部著作,我們可以通過以下步驟對出現(xiàn)的單詞進(jìn)行統(tǒng)計(jì):

源代碼:

注:
① encoding=’ANSI’:將打開的文本格式設(shè)為ANSI形式
② read(size):方法從文件當(dāng)前位置起讀取size個字節(jié),若無參數(shù)size,則表示讀取至文件結(jié)束為止,它范圍為字符串對象。
③items
= list(counts.items):將counts中的元素存入items表格中。
④ key = lambda x:x[1]:等價于 def func(x):
return x[1]
⑤ reverse = True:列表反轉(zhuǎn)排序,不寫reverse = True 就是列表升序排列,括號里面加上reverse =True 就是降序排列!
⑥ {0:<10}{1:>5}:<表示左對齊,>表示右對齊,數(shù)字表示寬度,<10表示左對齊,并占10個位置,>5表示右對齊,占5個位置。
運(yùn)行結(jié)果:

如上運(yùn)行結(jié)果有兩個不足之處,一是詞匯中出現(xiàn)了“卻說”、“丞相”、“二人”等人名以外的單詞,我們需要把這些單詞去除;二是“孔明”與“孔明說”、“曹操”與“丞相”等的是同一人,我們需要把它們合并同類項(xiàng),將代碼進(jìn)行優(yōu)化后,我們得到:
運(yùn)行結(jié)果:


相對于第一個程序,這個程序更為嚴(yán)謹(jǐn)與完整,已經(jīng)得到了大致得到所需結(jié)果,但它還沒有完全解決排除非人名這一問題,所以在該基礎(chǔ)之上繼續(xù)使用排除人名的方法去完善這一程序……
總結(jié):
使用jieba庫對一段文本進(jìn)行詞頻的統(tǒng)計(jì)是一件非常有意思的事,我們只需要使用這第三方庫,就可以在不閱讀文本的情況下,得到該文本的高頻率詞匯。但jieba庫的作用遠(yuǎn)遠(yuǎn)不止于此,它更多的作用等著我們?nèi)ネ诰颉?偟膩碚f,jieba庫是一個優(yōu)秀的中文分詞第三方庫,它在我們的程序中正大放光芒!
到此這篇關(guān)于Python中jieba庫的介紹與使用的文章就介紹到這了,更多相關(guān)Python中jieba庫使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python隊(duì)列RabbitMQ 使用方法實(shí)例記錄
這篇文章主要介紹了Python隊(duì)列RabbitMQ 使用方法,結(jié)合實(shí)例形式分析了Python隊(duì)列RabbitMQ創(chuàng)建隊(duì)列發(fā)送消息與創(chuàng)建消費(fèi)者消費(fèi)信息相關(guān)操作技巧,需要的朋友可以參考下2019-08-08
python BitMap算法處理20億隨機(jī)整數(shù)去重
這篇文章主要為大家介紹了python BitMap算法處理20億隨機(jī)整數(shù)去重,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01
Django基于Models定制Admin后臺實(shí)現(xiàn)過程解析
這篇文章主要介紹了Django基于Models定制Admin后臺實(shí)現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-11-11
python3 enum模塊的應(yīng)用實(shí)例詳解
這篇文章主要介紹了python3 enum模塊的應(yīng)用 ,文中提到了字典類型的缺點(diǎn)及特點(diǎn),本文通過實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下2019-08-08
Python實(shí)現(xiàn)以時間換空間的緩存替換算法
緩存是指可以進(jìn)行高速數(shù)據(jù)交換的存儲器,它先于內(nèi)存與CPU交換數(shù)據(jù),因此速度很快。緩存就是把一些數(shù)據(jù)暫時存放于某些地方,可能是內(nèi)存,也有可能硬盤。下面給大家介紹Python實(shí)現(xiàn)以時間換空間的緩存替換算法,需要的朋友參考下2016-02-02

