python使用jieba實現(xiàn)中文分詞去停用詞方法示例

更新時間：2018年03月11日 10:11:11 作者：circle元

jieba分詞,完全開源,有集成的python庫,簡單易用。下面這篇文章主要給大家介紹了關于python使用jieba實現(xiàn)中文分詞去停用詞的相關資料，文中通過示例代碼介紹的非常詳細，需要的朋友可以參考借鑒，下面來一起看看吧。

前言

jieba 基于Python的中文分詞工具，安裝使用非常方便，直接pip即可，2/3都可以，功能強悍，十分推薦。

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。

分詞模塊jieba，它是python比較好用的分詞模塊。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建議直接輸入 GBK 字符串，可能無法預料地錯誤解碼成 UTF-8

支持三種分詞模式

1 精確模式，試圖將句子最精確地切開，適合文本分析；

2 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非?？?，但是不能解決歧義；

3 搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用于搜索引擎分詞。

# 精確模式 seg_list = jieba.cut("我去過清華大學和北京大學。")

# 全模式 seg_list = jieba.cut("我去過清華大學和北京大學。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去過清華大學和北京大學。")

#精確模式: 我/ 去過/ 清華大學/ 和/ 北京大學/ 。

#全模式: 我/ 去過/ 清華/ 清華大學/ 華大/ 大學/ 和/ 北京/ 北京大學/ 大學/ /

#搜索引擎模式: 我/ 去過/ 清華/ 華大/ 大學/ 清華大學/ 和/ 北京/ 大學/ 北京大學/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家的學習或者工作具有一定的參考學習價值，如果有疑問大家可以留言交流，謝謝大家對腳本之家的支持。

您可能感興趣的文章:

Python利用Beautiful Soup模塊創(chuàng)建對象詳解
這篇文章主要介紹了Python利用Beautiful Soup模塊創(chuàng)建對象的相關資料，文中介紹的非常詳細，相信對大家具有一定的參考價值，需要的朋友們下面來一起看看吧。
2017-03-03
Python3如何解決字符編碼問題詳解
字符串是一種數(shù)據(jù)類型，但是，字符串比較特殊的是還有一個編碼問題。下面這篇文章主要給大家介紹了關于Python3如何解決字符編碼問題的相關資料，文中介紹的還是相對比較詳細的，需要的朋友可以參考借鑒，下面來一起看看吧。
2017-04-04
pandas計算最大連續(xù)間隔的方法
今天小編就為大家分享一篇pandas計算最大連續(xù)間隔的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-07-07
利用Python pandas對Excel進行合并的方法示例
這篇文章主要給大家介紹了關于利用Python pandas對Excel進行合并的方法示例，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-11-11
pytorch 搭建神經(jīng)網(wǎng)路的實現(xiàn)
這篇文章主要介紹了pytorch 搭建神經(jīng)網(wǎng)路，文中通過示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-08-08
python基礎中的文件對象詳解
這篇文章主要為大家介紹了python基礎中的文件對象，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助
2022-01-01
python中if的基礎用法(if?else和if?not)
if在Python中用作某個條件或值的判斷,下面這篇文章主要給大家介紹了關于python中if的基礎用法,主要包括if?else和if?not,文中通過圖文介紹的非常詳細,需要的朋友可以參考下
2022-09-09
詳解Python中的魔法函數(shù)與量子計算模擬
這篇文章主要介紹了python的魔法函數(shù)和量子計算模擬，我們可以通過一個實際的案例來先審視一下這兩個需求是如何被結(jié)合起來的，希望對大家有所幫助
2023-03-03
python3.x+pyqt5實現(xiàn)主窗口狀態(tài)欄里（嵌入）顯示進度條功能
這篇文章主要介紹了python3.x+pyqt5實現(xiàn)主窗口狀態(tài)欄里（嵌入）顯示進度條功能，本文通過實例代碼給大家介紹的非常詳細，具有一定的參考借鑒價值,需要的朋友可以參考下
2019-07-07
Python 繪圖和可視化詳細介紹
這篇文章主要介紹了Python 繪圖和可視化詳細介紹的相關資料,需要的朋友可以參考下
2017-02-02