Python中jieba庫的使用方法

更新時間：2021年06月16日 10:47:35 作者：留蘭香丶

jieba庫是一款優(yōu)秀的 Python 第三方中文分詞庫，本文主要介紹了Python中jieba庫的使用方法，具有一定的參考價值，感興趣的小伙伴們可以參考一下

一、jieba庫的安裝

因為 jieba 是一個第三方庫，所有需要我們在本地進行安裝。

Windows 下使用命令安裝：在聯(lián)網狀態(tài)下，在命令行下輸入 pip install jieba 進行安裝，安裝完成后會提示安裝成功

這里寫圖片描述

在 pyCharm 中安裝：打開 settings，搜索 Project Interpreter，在右邊的窗口選擇 + 號，點擊后在搜索框搜索 jieba，點擊安裝即可

二、jieba三種模式的使用

# -*- coding: utf-8 -*-
import jieba

seg_str = "好好學習，天天向上。"

print("/".join(jieba.lcut(seg_str)))    # 精簡模式，返回一個列表類型的結果
print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式，使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式

分詞效果：

這里寫圖片描述

三、jieba 分詞簡單應用

需求：使用 jieba 分詞對一個文本進行分詞，統(tǒng)計次數(shù)出現(xiàn)最多的詞語，這里以三國演義為例

# -*- coding: utf-8 -*-
import jieba

txt = open("三國演義.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精確模式對文本進行分詞
counts = {}     # 通過鍵值對的形式存儲詞語及其出現(xiàn)的次數(shù)

for word in words:
    if len(word) == 1:    # 單個詞語不計算在內
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍歷所有詞語，每出現(xiàn)一次其對應的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根據(jù)詞語出現(xiàn)的次數(shù)進行從大到小排序

for i in range(3):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

統(tǒng)計結果：

這里寫圖片描述

你可以隨便找一個文本文檔，也可以到 https://github.com/coderjas/python-quick 下載上面例子中的文檔。

四、擴展：英文單詞統(tǒng)計

上面的例子統(tǒng)計實現(xiàn)了中文文檔中出現(xiàn)最多的詞語，接著我們就來統(tǒng)計一下一個英文文檔中出現(xiàn)次數(shù)最多的單詞。原理同上

# -*- coding: utf-8 -*-

def get_text():
    txt = open("1.txt", "r", encoding='UTF-8').read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")      # 將文本中特殊字符替換為空格
    return txt

file_txt = get_text()
words = file_txt.split()    # 對字符串進行分割，獲得單詞列表
counts = {}

for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1 

items = list(counts.items())    
items.sort(key=lambda x: x[1], reverse=True)      

for i in range(5):
    word, count = items[i]
    print("{0:<5}->{1:>5}".format(word, count))

統(tǒng)計結果：

這里寫圖片描述

到此這篇關于Python中jieba庫的使用方法的文章就介紹到這了,更多相關Python jieba庫內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python實現(xiàn)在一個畫布上畫多個子圖
今天小編就為大家分享一篇python實現(xiàn)在一個畫布上畫多個子圖，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
Python中使用logging和traceback模塊記錄日志和跟蹤異常
今天小編就為大家分享一篇關于Python中使用logging和traceback模塊記錄日志和跟蹤異常，小編覺得內容挺不錯的，現(xiàn)在分享給大家，具有很好的參考價值，需要的朋友一起跟隨小編來看看吧
2019-04-04
python多線程http壓力測試腳本
這篇文章主要為大家詳細介紹了python多線程http壓力測試腳本，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2019-06-06
selenium判斷元素是否存在的兩種方法小結
這篇文章主要介紹了selenium判斷元素是否存在的兩種方法，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-12-12
利用keras使用神經網絡預測銷量操作
這篇文章主要介紹了利用keras使用神經網絡預測銷量操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-07-07
詳解django的serializer序列化model幾種方法
序列化是將對象狀態(tài)轉換為可保持或傳輸?shù)母袷降倪^程。這篇文章主要介紹了詳解django的serializer序列化model幾種方法。具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-10-10
Python?requirements.txt的具體使用
requirements.txt文件是項目的依賴包及其對應版本號的信息列表，本文主要介紹了Python?requirements.txt的具體使用，具有一定的參考價值，感興趣的可以了解一下
2024-01-01
解決IDEA 的 plugins 搜不到任何的插件問題
這篇文章主要介紹了解決IDEA 的 plugins 搜不到任何的插件問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
一文帶你掌握Pyecharts地理數(shù)據(jù)可視化的方法
這篇文章主要介紹了一文帶你掌握Pyecharts地理數(shù)據(jù)可視化的方法，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2021-02-02
python獲取當前日期和時間的方法
這篇文章主要介紹了python獲取當前日期和時間的方法,涉及Python操作日期與時間的相關技巧,非常具有實用價值,需要的朋友可以參考下
2015-04-04