国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python?中的jieba分詞庫

更新時(shí)間：2021年11月23日 08:48:46 作者：L-L

這篇文章主要介紹了python中的jieba分詞庫，jieba?庫是優(yōu)秀的中文分詞第三方庫，中文文本需要通過分詞獲得單個(gè)的詞語，下面文章的的詳細(xì)內(nèi)容,需要的朋友可以參考一下

1、jieba庫安裝

管理員身份運(yùn)行cmd窗口輸入命令：pip install jieba

2、jieba庫功能介紹

特征：

支持三種分詞模式：

精確模式：試圖將句子最精確地切開，適合文本分析

全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非?？欤遣荒芙鉀Q歧義

搜索引擎模式：在精確模式的基礎(chǔ)上，對長詞再次切分，提高召回率，適合用于搜索引擎分詞

支持繁體分詞
支持自定義詞典

分詞功能：

jieba.cut 和 jieba.lcut 方法接受兩個(gè)傳入?yún)?shù)：

第一個(gè)參數(shù)為需要分詞的字符串
cut_all參數(shù)用來控制是否采用全模式

lcut 將返回的對象轉(zhuǎn)化為 list 對象返回

jieba.cut_for_search 和 jieba.lcut_for_search 方法接受一個(gè)參數(shù)

需要分詞的字符串

該方法適合用于搜索引擎構(gòu)建倒排索引的分詞，顆粒度較細(xì)

jieba.lcut_for_search 方法返回列表類型

添加自定義詞典：

開發(fā)者可以指定自己自定義的詞典，以便包含jieba詞庫里沒有的詞。雖然jieba有新詞識(shí)別能力，但是自行添加新詞可以保證更高的正確率

用法：

使用自定義詞典文件：

jieba.load_userdict(file_name) # file_name 是自定義詞典的路徑

使用jieba在程序中動(dòng)態(tài)修改詞典：

jieba.add_word(new_words) # new_words 是想要添加的新詞

jieba.del_word(words) # 刪除words

關(guān)鍵詞提?。?/strong>

jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse

sentence 為待提取的文本

topK 為返回幾個(gè)TF/IDF權(quán)重最大的關(guān)鍵詞，默認(rèn)是20

詞性標(biāo)注：

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定義分詞器，tokenizer參數(shù)可指定內(nèi)部使用的jieba.Tokenizer 分詞

jieba.posseg.dt 為默認(rèn)詞性標(biāo)注分詞器

標(biāo)注句子分詞后每個(gè)詞的詞性，采用和ictclas兼容的標(biāo)記法

3、案例

3.1、精確模式

import jieba list1 = jieba.lcut("中華人民共和國是一個(gè)偉大的國家") print(list1) print("精確模式："+"/".join(list1))

3.2、全模式

list2 = jieba.lcut("中華人民共和國是一個(gè)偉大的國家",cut_all = True) print(list2,end=",") print("全模式："+"/".join(list2))

3.3、搜索引擎模式

list3 = jieba.lcut_for_search("中華人民共和國是一個(gè)偉大的國家") print(list3) print("搜索引擎模式："+" ".join(list3))

3.4、修改詞典

import jieba text = "中信建投投資公司了一款游戲，中信也投資了一個(gè)游戲公司" word = jieba.lcut(text) print(word) # 添加詞 jieba.add_word("中信建投") jieba.add_word("投資公司") word1 = jieba.lcut(text) print(word1) # 刪除詞 jieba.del_word("中信建投") word2 = jieba.lcut(text) print(word2)

3.5、詞性標(biāo)注

import jieba.posseg as pseg words = pseg.cut("我愛北京天安門") for i in words: print(i.word,i.flag)

3.6、統(tǒng)計(jì)三國演義中人物出場的次數(shù)

三演義文本下載：

import jieba txt = open("文件路徑", "r", encoding='utf-8').read() # 打開并讀取文件 words = jieba.lcut(txt) # 使用精確模式對文本進(jìn)行分詞 counts = {} # 通過鍵值對的形式存儲(chǔ)詞語及其出現(xiàn)的次數(shù) for word in words: if len(word) == 1: # 單個(gè)詞語不計(jì)算在內(nèi) continue else: counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語，每出現(xiàn)一次其對應(yīng)的值加 1 items = list(counts.items()) #將鍵值對轉(zhuǎn)換成列表 items.sort(key=lambda x: x[1], reverse=True) # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序 for i in range(15): word, count = items[i] print("{0:<10}{1:>5}".format(word, count))

import jieba excludes = {"將軍","卻說","荊州","二人","不可","不能","如此","如何"} txt = open("三國演義.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue elif word == "諸葛亮" or word == "孔明曰": rword = "孔明" elif word == "關(guān)公" or word == "云長": rword = "關(guān)羽" elif word == "玄德" or word == "玄德曰": rword = "劉備" elif word == "孟德" or word == "丞相": rword = "曹操" else: rword = word counts[rword] = counts.get(rword,0) + 1 for i in excludes: del counts[i] items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(10): word, count = items[i] print ("{0:<10}{1:>5}".format(word, count))

到此這篇關(guān)于python 中的jieba分詞庫的文章就介紹到這了,更多相關(guān)python jieba分詞庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:
Python中文文本處理利器jieba分詞庫使用
通過Python的jieba庫對文本進(jìn)行分詞
python中jieba庫(中文分詞庫)使用安裝教程
Python第三方庫jieba庫與中文分詞全面詳解
Python中文分詞庫jieba(結(jié)巴分詞)詳細(xì)使用介紹
Python jieba 中文分詞與詞頻統(tǒng)計(jì)的操作
Python jieba結(jié)巴分詞原理及用法解析
python中文分詞庫jieba使用方法詳解
java利用jieba進(jìn)行分詞的實(shí)現(xiàn)

python

jieba

分詞庫

相關(guān)文章

django認(rèn)證系統(tǒng)實(shí)現(xiàn)自定義權(quán)限管理的方法
今天小編就為大家分享一篇django認(rèn)證系統(tǒng)實(shí)現(xiàn)自定義權(quán)限管理的方法，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-08-08

Python將文件映射到內(nèi)存使用mmap.mmap()函數(shù)方式
這篇文章主要介紹了Python將文件映射到內(nèi)存使用mmap.mmap()函數(shù)方式,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
2024-02-02

python json.dumps中文亂碼問題解決
這篇文章主要介紹了如何解決python中中文亂碼問題和json.dumps中文亂碼問題,需要的朋友可以參考下
2021-05-05

wxPython之解決閃爍的問題
下面小編就為大家分享一篇wxPython之解決閃爍的問題，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-01-01

pytest解讀一次請求多個(gè)fixtures及多次請求
這篇文章主要為大家介紹了一次請求多個(gè)fixtures，以及fixtures被多次請求的pytest官方解讀，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪
2022-06-06

python數(shù)據(jù)處理——對pandas進(jìn)行數(shù)據(jù)變頻或插值實(shí)例
這篇文章主要介紹了python數(shù)據(jù)處理——對pandas進(jìn)行數(shù)據(jù)變頻或插值實(shí)例，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04

Python實(shí)現(xiàn)自動(dòng)發(fā)送郵件功能
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)自動(dòng)發(fā)送郵件功能，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2017-12-12

為什么相對PHP黑python的更少
在本篇內(nèi)容里小編給各位整理了關(guān)于為什么相對PHP黑python的更少的原因和知識(shí)點(diǎn)，需要的朋友們可以參考下。
2020-06-06

tensorflow 動(dòng)態(tài)獲取 BatchSzie 的大小實(shí)例
這篇文章主要介紹了tensorflow 動(dòng)態(tài)獲取 BatchSzie 的大小實(shí)例，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-06-06

python利用xpath爬取網(wǎng)上數(shù)據(jù)并存儲(chǔ)到django模型中
這篇文章主要介紹了python利用xpath爬取網(wǎng)上數(shù)據(jù)并存儲(chǔ)到django模型中,本文給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2021-02-02

最新評論

大家感興趣的內(nèi)容

1Python入門教程超詳細(xì)1小時(shí)學(xué)會(huì)Python
2Pycharm?2020最新永久激活碼（附最新激活碼和插件
3Python 元組(Tuple)操作詳解
4Python 列表(List)操作方法詳解
5Python 字典(Dictionary)操作詳解
6Pycharm 2020年最新激活碼（親測有效）
7python strip()函數(shù) 介紹
8pycharm 使用心得（一）安裝和首次使用
9python中使用xlrd、xlwt操作excel表格詳解
10python 中文亂碼問題深入分析

最近更新的內(nèi)容

Python類成員繼承重寫的實(shí)現(xiàn)
Django drf請求模塊源碼解析
python scipy卷積運(yùn)算的實(shí)現(xiàn)方法
Python爬蟲通過替換http request header來欺騙瀏覽器實(shí)
python實(shí)現(xiàn)多線程抓取知乎用戶
Python數(shù)據(jù)可視化之matplotlib.pyplot繪圖的基本參數(shù)詳解
Python3實(shí)現(xiàn)爬蟲爬取趕集網(wǎng)列表功能【基于request和Beautif
Python的Asyncore異步Socket模塊及實(shí)現(xiàn)端口轉(zhuǎn)發(fā)的例子
Python實(shí)現(xiàn)圖像增強(qiáng)
python numpy 顯示圖像陣列的實(shí)例

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python?中的jieba分詞庫

目錄

1、jieba庫安裝

2、jieba庫功能介紹

3、案例

3.1、精確模式

3.2、全模式

3.3、搜索引擎模式

3.4、修改詞典

3.5、詞性標(biāo)注

3.6、統(tǒng)計(jì)三國演義中人物出場的次數(shù)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

1、jieba庫安裝

2、jieba庫功能介紹

3、案例

3.1、精確模式

3.3、搜索引擎模式

3.4、修改詞典

3.5、詞性標(biāo)注