Python中jieba庫的介紹與使用

更新時間：2023年03月02日 10:32:01 作者：Algorithm-007

使用jieba庫對一段文本進(jìn)行詞頻的統(tǒng)計(jì)是一件非常有意思的事，我們只需要使用這第三方庫，就可以在不閱讀文本的情況下，得到該文本的高頻率詞匯，這篇文章主要介紹了Python中jieba庫的介紹與使用,需要的朋友可以參考下

前言：

jieba是優(yōu)秀的中文分詞第三方庫，由于中文文本之間每個漢字都是連續(xù)書寫的，我們需要通過特定的手段來獲得其中的每個詞組，這種手段叫做分詞，我們可以通過jieba庫來完成這個過程。

一、jieba庫基本介紹

(1)jieba庫概述

① jieba是優(yōu)秀的中文分詞第三方庫

②中文文本需要通過分詞獲得單個的詞語③ jieba是優(yōu)秀的中文分詞第三方庫，需要額外安裝

④jieba庫提供三種分詞模式，最簡單只需掌握一個函數(shù)

(2)jieba分詞的原理

①分詞依靠中文詞庫

② 利用一個中文詞庫，確定漢字之間的關(guān)聯(lián)概率

③ 漢字間概率大的組成詞組，形成分詞結(jié)果

④ 除了分詞，用戶還可以添加自定義的詞組

二、jieba庫使用說明

(1)jieba分詞的三種模式

精確模式、全模式、搜索引擎模式

① jieba.cut(s) 精確模式：把文本精確的切分開，不存在冗余單詞:

② jieba.lcut(s,cut_all=True) 全模式：把文本中所有可能的詞語都掃描出來，有冗余:

③jieba.lcut_for_search(s) 搜索引擎模式：在精確模式基礎(chǔ)上，對長詞再次切分:

三：jieba庫的安裝

因?yàn)?nbsp;jieba 是一個第三方庫，所有需要我們在本地進(jìn)行安裝：

ⅠIDLE中jieba庫的安裝：

Windows 下使用命令安裝：在聯(lián)網(wǎng)狀態(tài)下，在命令行下輸入 pip

install jieba 進(jìn)行安裝，安裝完成后會提示安裝成功。具體過程如圖：

① Win + r 打開運(yùn)行框并輸入cmd打開指令框：

②在指令框輸入“pip install jieba”并按下回車等待下載：

③ 當(dāng)出現(xiàn)“Successfully instll”，則表示安裝成功！

Ⅱ Pycharm中jieba庫的安裝：

打開 settings，搜索 Project Interpreter，在右邊的窗口選擇 + 號，點(diǎn)擊后在搜索框搜索 jieba，點(diǎn)擊安裝即可。具體過程如圖：

① 點(diǎn)擊左上角Files中的Settings：

② [endif]找到“Project”中的“python interpreter”，并點(diǎn)擊其中的“+”：

③在搜索欄中搜索“jieba”，并點(diǎn)擊左下角Install Package：

④ 當(dāng)出現(xiàn)“Successfully instll

jieba”，則表示jieba庫安裝成功！

四：實(shí)例-文本詞頻統(tǒng)計(jì)

Jieba庫最強(qiáng)大的功能之一就是對文章出現(xiàn)的詞匯進(jìn)行計(jì)數(shù)統(tǒng)計(jì)，即計(jì)算詞頻，對于一篇文章或者一部著作，我們可以通過以下步驟對出現(xiàn)的單詞進(jìn)行統(tǒng)計(jì)：

源代碼：

注：

① encoding=’ANSI’:將打開的文本格式設(shè)為ANSI形式

② read(size):方法從文件當(dāng)前位置起讀取size個字節(jié)，若無參數(shù)size，則表示讀取至文件結(jié)束為止，它范圍為字符串對象。

③items

= list（counts.items）:將counts中的元素存入items表格中。

④ key = lambda x:x[1]:等價于 def func(x):

return x[1]

⑤ reverse = True：列表反轉(zhuǎn)排序，不寫reverse = True 就是列表升序排列，括號里面加上reverse =True 就是降序排列！

⑥ {0:<10}{1:>5}:<表示左對齊，>表示右對齊，數(shù)字表示寬度,<10表示左對齊，并占10個位置，>5表示右對齊，占5個位置。

運(yùn)行結(jié)果：

如上運(yùn)行結(jié)果有兩個不足之處，一是詞匯中出現(xiàn)了“卻說”、“丞相”、“二人”等人名以外的單詞，我們需要把這些單詞去除；二是“孔明”與“孔明說”、“曹操”與“丞相”等的是同一人，我們需要把它們合并同類項(xiàng)，將代碼進(jìn)行優(yōu)化后，我們得到：

運(yùn)行結(jié)果：

相對于第一個程序，這個程序更為嚴(yán)謹(jǐn)與完整，已經(jīng)得到了大致得到所需結(jié)果，但它還沒有完全解決排除非人名這一問題，所以在該基礎(chǔ)之上繼續(xù)使用排除人名的方法去完善這一程序……

總結(jié)：

使用jieba庫對一段文本進(jìn)行詞頻的統(tǒng)計(jì)是一件非常有意思的事，我們只需要使用這第三方庫，就可以在不閱讀文本的情況下，得到該文本的高頻率詞匯。但jieba庫的作用遠(yuǎn)遠(yuǎn)不止于此，它更多的作用等著我們?nèi)ネ诰颉？偟膩碚f，jieba庫是一個優(yōu)秀的中文分詞第三方庫，它在我們的程序中正大放光芒！

到此這篇關(guān)于Python中jieba庫的介紹與使用的文章就介紹到這了,更多相關(guān)Python中jieba庫使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python中jieba庫的介紹與使用

目錄

前言：

目錄：

一、jieba庫基本介紹

(1)jieba庫概述

(2)jieba分詞的原理

二、jieba庫使用說明

(1)jieba分詞的三種模式

三：jieba庫的安裝

ⅠIDLE中jieba庫的安裝：

Ⅱ Pycharm中jieba庫的安裝：

四：實(shí)例-文本詞頻統(tǒng)計(jì)

總結(jié)：

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python中jieba庫的介紹與使用

目錄

前言：

目錄：

一、jieba庫基本介紹

(1)jieba庫概述

(2)jieba分詞的原理

二、jieba庫使用說明

(1)jieba分詞的三種模式

三：jieba庫的安裝

ⅠIDLE中jieba庫的安裝：

Ⅱ Pycharm中jieba庫的安裝：

四：實(shí)例-文本詞頻統(tǒng)計(jì)

總結(jié)：

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

一、jieba庫基本介紹

二、jieba庫使用說明