Python英文文本分詞(無空格)模塊wordninja的使用實(shí)例
在NLP中,數(shù)據(jù)清洗與分詞往往是很多工作開始的第一步,大多數(shù)工作中只有中文語料數(shù)據(jù)需要進(jìn)行分詞,現(xiàn)有的分詞工具也已經(jīng)有了很多了,這里就不再多介紹了。英文語料由于其本身存在空格符所以無需跟中文語料同樣處理,如果英文數(shù)據(jù)中沒有了空格,那么應(yīng)該怎么處理呢?
今天介紹一個(gè)工具就是專門針對(duì)上述這種情況進(jìn)行處理的,這個(gè)工具叫做:wordninja,地址在這里。
下面簡(jiǎn)單以實(shí)例看一下它的功能:
def wordinjaFunc():
'''
https://github.com/yishuihanhan/wordninja
'''
import wordninja
print wordninja.split('derekanderson')
print wordninja.split('imateapot')
print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
print wordninja.split('littlelittlestar')
結(jié)果如下:
['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']
從簡(jiǎn)單的結(jié)果上來看,效果還是不錯(cuò)的,之后在實(shí)際的使用中會(huì)繼續(xù)評(píng)估。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)腳本之家的支持。如果你想了解更多相關(guān)內(nèi)容請(qǐng)查看下面相關(guān)鏈接
- Python實(shí)現(xiàn)多進(jìn)程的四種方式
- Python多進(jìn)程fork()函數(shù)詳解
- Python爬蟲之UserAgent的使用實(shí)例
- Python快速轉(zhuǎn)換numpy數(shù)組中Nan和Inf的方法實(shí)例說明
- Python基于滑動(dòng)平均思想實(shí)現(xiàn)缺失數(shù)據(jù)填充的方法
- 利用Python對(duì)文件夾下圖片數(shù)據(jù)進(jìn)行批量改名的代碼實(shí)例
- Python基于opencv調(diào)用攝像頭獲取個(gè)人圖片的實(shí)現(xiàn)方法
- 啥是佩奇?使用Python自動(dòng)繪畫小豬佩奇的代碼實(shí)例
- Python實(shí)戰(zhàn)購(gòu)物車項(xiàng)目的實(shí)現(xiàn)參考
- Python3.6.x中內(nèi)置函數(shù)總結(jié)及講解
相關(guān)文章
Pytorch可視化(顯示圖片)及格式轉(zhuǎn)換問題
這篇文章主要介紹了Pytorch可視化(顯示圖片)及格式轉(zhuǎn)換問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-12-12
python注冊(cè)釘釘回調(diào)事件的實(shí)現(xiàn)
釘釘有回調(diào)事件流程,本文主要介紹了python注冊(cè)釘釘回調(diào)事件的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08
Python文件循環(huán)寫入行時(shí)防止覆蓋的解決方法
今天小編就為大家分享一篇Python文件循環(huán)寫入行時(shí)防止覆蓋的解決方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11
詳解Django項(xiàng)目中模板標(biāo)簽及模板的繼承與引用(網(wǎng)站中快速布置廣告)
這篇文章主要介紹了詳解Django項(xiàng)目中模板標(biāo)簽及模板的繼承與引用【網(wǎng)站中快速布置廣告】,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2019-03-03
Python爬蟲之獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù)并彈窗提醒
今天我們來學(xué)習(xí)如何獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù),制作彈窗提醒,并設(shè)置成自啟動(dòng)項(xiàng)目.文中有非常詳細(xì)的代碼示例及介紹,對(duì)正在學(xué)習(xí)python的小伙伴們有非常好的幫助,需要的朋友可以參考下2021-05-05
python網(wǎng)絡(luò)編程:socketserver的基本使用方法實(shí)例分析
這篇文章主要介紹了python網(wǎng)絡(luò)編程:socketserver的基本使用方法,結(jié)合實(shí)例形式分析了python網(wǎng)絡(luò)編程中socketserver的基本功能、使用方法及操作注意事項(xiàng),需要的朋友可以參考下2020-04-04
pandas DataFrame where的實(shí)現(xiàn)示例
pandas.DataFrame.where方法提供了一種靈活的方式來根據(jù)條件篩選和替換DataFrame中的元素,本文主要介紹了pandas DataFrame where的實(shí)現(xiàn)示例,感興趣的可以了解一下2025-04-04
Python實(shí)現(xiàn)刪除windows下的長(zhǎng)路徑文件
這篇文章主要為大家詳細(xì)介紹一下如何利用Python語言實(shí)現(xiàn)刪除windows下的長(zhǎng)路徑文件功能,文中的示例代碼講解詳細(xì),具有一定參考借鑒價(jià)值,感興趣的可以了解一下2022-07-07
Python選擇網(wǎng)卡發(fā)包及接收數(shù)據(jù)包
今天小編就為大家分享一篇關(guān)于Python選擇網(wǎng)卡發(fā)包及接收數(shù)據(jù)包,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧2019-04-04

