python中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞(實(shí)例講解)

更新時(shí)間：2017年11月14日 09:04:15 作者：yangjiyue

下面小編就為大家?guī)硪黄猵ython中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞的實(shí)例講解。有比較好的參考價(jià)值，希望能給大家做個(gè)參考。一起跟隨小編過來看看吧

在采集美女站時(shí)，需要對(duì)關(guān)鍵詞進(jìn)行分詞，最終采用的是python的結(jié)巴分詞方法。

中文分詞是中文文本處理的一個(gè)基礎(chǔ)性工作，結(jié)巴分詞利用進(jìn)行中文分詞。

其基本實(shí)現(xiàn)原理有三點(diǎn)：

1.基于Trie樹結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖（DAG)

2.采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合

3.對(duì)于未登錄詞，采用了基于漢字成詞能力的HMM模型，使用了Viterbi算法

安裝（Linux環(huán)境）

下載工具包，解壓后進(jìn)入目錄下，運(yùn)行：python setup.py install

模式

1.默認(rèn)模式，試圖將句子最精確地切開，適合文本分析

2.全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎

接口

• 組件只提供jieba.cut 方法用于分詞

• cut方法接受兩個(gè)輸入?yún)?shù)：

• 第一個(gè)參數(shù)為需要分詞的字符串

• cut_all參數(shù)用來控制分詞模式

• 待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的結(jié)構(gòu)是一個(gè)可迭代的generator，可以使用for循環(huán)來獲得分詞后得到的每一個(gè)詞語(unicode)，也可以用list(jieba.cut(...))轉(zhuǎn)化為list

• seg=jieba.cut("http://www.gg4493.cn/"):

實(shí)例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我來到北京清華大學(xué)")
print "Default Mode:", ' '.join(seg_list)

結(jié)果

以上這篇python中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞(實(shí)例講解)就是小編分享給大家的全部內(nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python Paramiko模塊的安裝與使用詳解
最近閑著學(xué)習(xí)python，看到有個(gè)paramiko模塊，貌似很強(qiáng)大，所以從網(wǎng)上學(xué)習(xí)后總結(jié)了這篇文章，下面這篇文章就給大家介紹了Python中Paramiko模塊的安裝與使用，文中介紹的很詳細(xì)，相信對(duì)大家的學(xué)習(xí)很有幫助，有需要的朋友們下面來一起看看吧。
2016-11-11
Python基于pycrypto實(shí)現(xiàn)的AES加密和解密算法示例
這篇文章主要介紹了Python基于pycrypto實(shí)現(xiàn)的AES加密和解密算法,結(jié)合實(shí)例形式分析了Python使用pycrypto模塊進(jìn)行AES加密與解密操作相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下
2018-04-04
Python在信息學(xué)競賽中的運(yùn)用及Python的基本用法(詳解)
下面小編就為大家?guī)硪黄狿ython在信息學(xué)競賽中的運(yùn)用及Python的基本用法(詳解)。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-08-08
python 實(shí)現(xiàn) hive中類似 lateral view explode的功能示例
這篇文章主要介紹了python 實(shí)現(xiàn) hive中類似 lateral view explode的功能示例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
運(yùn)動(dòng)檢測ViBe算法python實(shí)現(xiàn)代碼
這篇文章主要為大家詳細(xì)介紹了運(yùn)動(dòng)檢測ViBe算法python實(shí)現(xiàn)代碼，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-01-01
Python列表解析操作實(shí)例總結(jié)
這篇文章主要介紹了Python列表解析操作,結(jié)合實(shí)例形式總結(jié)分析了Python列表解析常見的列表推導(dǎo)式、循環(huán)語句、條件列表、嵌套列表等相關(guān)操作技巧,需要的朋友可以參考下
2020-02-02
Python NumPy 數(shù)組索引的示例詳解
數(shù)組索引是指使用方括號(hào)（[]）來索引數(shù)組值,numpy提供了比常規(guī)的python序列更多的索引工具，除了按整數(shù)和切片索引之外，數(shù)組可以由整數(shù)數(shù)組索引、布爾索引及花式索引，這篇文章主要介紹了Python NumPy 數(shù)組索引,需要的朋友可以參考下
2023-01-01
python關(guān)于字典及遍歷的常用方法
這篇文章主要介紹了python關(guān)于字典及遍歷的常用方法，字典的鍵可以是字符串、整數(shù)、元組或字典。字典的值也可以是字符串、整數(shù)，文章圍繞主題展開更多詳細(xì)的內(nèi)容，需要的小伙伴可以參考一下
2022-06-06
python使用json.dumps輸出中文問題
這篇文章主要介紹了python使用json.dumps輸出中文問題，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-02-02
使用python實(shí)現(xiàn)baidu hi自動(dòng)登錄的代碼
使用python自動(dòng)登錄baidu hi的代碼，有需要的朋友可以參考下
2013-02-02