Python?jieba分詞添加自定義詞和去除不需要長(zhǎng)尾詞的操作方法
Python jieba分詞如何添加自定義詞和去除不需要長(zhǎng)尾詞
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-ZbGUd57b-1677564707180)(2007.assets/1-1677564619771.png)]](http://img.jbzj.com/file_images/article/202303/2023030210072740.png)
通過(guò)如下代碼,讀取一個(gè)txt的高頻詞匯:
# 找到高頻詞匯
tmp_content = self.getContent(tmp_path)
keyword_list = tmp_content.split('\n')
word_count = dict()
for keyword in keyword_list:
for word,flag in jp.cut(keyword):
if word in word_count:
word_count[word] = word_count[word] +1
else:
word_count[word] =1
for word, count in word_count.items():
print('%s\t%s' % (word,count))很多情況下 jieba它不知道一些詞匯,比如說(shuō)獲得的詞匯如下
建立 和 可視化 是2個(gè)獨(dú)立的單詞
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-hGFRlmcz-1677564707182)(2007.assets/image-20230228140647773.png)]](http://img.jbzj.com/file_images/article/202303/2023030210072741.png)
一、添加自定義詞
通過(guò)添加自定義詞
import jieba import jieba.posseg as jp jieba.load_userdict(r'jieba_dict.txt')
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-Ljn92rgA-1677564707182)(2007.assets/image-20230228140134068.png)]](http://img.jbzj.com/file_images/article/202303/2023030210072742.png)
就可以看到,統(tǒng)計(jì)出來(lái)的詞是這個(gè)自定義詞
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-uphMFIPd-1677564707182)(2007.assets/image-20230228140339267.png)]](http://img.jbzj.com/file_images/article/202303/2023030210072743.png)
二、去除不需要長(zhǎng)尾詞
有時(shí) 統(tǒng)計(jì)出來(lái)的某些詞匯jieba認(rèn)為是一個(gè)詞匯 但是此時(shí) 我想讓他變?yōu)槎鄠€(gè)詞匯 ,可以通過(guò)如下代碼實(shí)現(xiàn):
import jieba
import jieba.posseg as jp
jieba.del_word('創(chuàng)建活動(dòng)')此時(shí) jieba 就會(huì)不認(rèn)定 創(chuàng)建活動(dòng) 是一個(gè)詞,它會(huì)將它們分開(kāi)統(tǒng)計(jì)
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-QX0aqeZ8-1677564707183)(2007.assets/image-20230228140926854.png)]](http://img.jbzj.com/file_images/article/202303/2023030210072744.png)
總結(jié)
- 本文主要介紹jieba的基礎(chǔ)用法。
到此這篇關(guān)于Python jieba分詞如何添加自定義詞和去除不需要長(zhǎng)尾詞的文章就介紹到這了,更多相關(guān)Python jieba分詞內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
TensorFlow-gpu和opencv安裝詳細(xì)教程
這篇文章主要介紹了TensorFlow-gpu和opencv安裝過(guò)程,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06
Python調(diào)用百度AI實(shí)現(xiàn)顏值評(píng)分功能
這篇文章主要介紹了應(yīng)用百度AI的人臉識(shí)別功能對(duì)年齡、性別、顏值等進(jìn)行識(shí)別,代碼具有一定的學(xué)習(xí)價(jià)值,感興趣的朋友跟隨小編一起看看吧2021-11-11
python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解
這篇文章主要介紹了python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11
如何在Python中使用pyecharts圖形畫(huà)可視化大屏
最近碰巧需要用到pyecharts,pyecharts庫(kù)是一個(gè)用于生成echarts圖表的類(lèi)庫(kù),這篇文章主要給大家介紹了關(guān)于如何在Python中使用pyecharts圖形畫(huà)可視化大屏的相關(guān)資料,需要的朋友可以參考下2024-05-05
django fernet fields字段加密實(shí)踐詳解
這篇文章主要介紹了django fernet fields字段加密實(shí)踐詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08

