Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型
概述
從今天開始我們將開啟一段自然語言處理 (NLP) 的旅程. 自然語言處理可以讓來處理, 理解, 以及運(yùn)用人類的語言, 實(shí)現(xiàn)機(jī)器語言和人類語言之間的溝通橋梁.

詞袋模型
詞袋模型 (Bag of Words Model) 能幫助我們把一個(gè)句子轉(zhuǎn)換為向量表示. 詞袋模型把文本看作是無序的詞匯集合, 把每一單詞都進(jìn)行統(tǒng)計(jì).

向量化
詞袋模型首先會(huì)進(jìn)行分詞, 在分詞之后. 通過通過統(tǒng)計(jì)在每個(gè)詞在文本中出現(xiàn)的次數(shù). 我們就可以得到該文本基于詞語的特征, 如果將各個(gè)文本樣本的這些詞與對應(yīng)的詞頻放在一起, 就是我們常說的向量化.

例子:
import jieba
from gensim import corpora
# 定義標(biāo)點(diǎn)符號
punctuation = [",", "。", ":", ";", "?", "!"]
# 定義語料
content = [
"今天天氣真不錯(cuò)!",
"明天要下雨?",
"后天要打雷。"
]
# 分詞
seg = [jieba.lcut(con) for con in content]
print("語料:", seg)
# 去除標(biāo)點(diǎn)符號
tokenized = seg.copy()
for s in tokenized:
for p in punctuation:
if p in s:
s.remove(p)
print("去除標(biāo)點(diǎn):", tokenized)
# tokenized是去標(biāo)點(diǎn)之后的
dictionary = corpora.Dictionary(seg)
print("詞袋模型:", dictionary)
# 保存詞典
dictionary.save('deerwester.dict')
# 查看字典和下標(biāo)id的映射
print("編號:", dictionary.token2id)
輸出結(jié)果:
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.140 seconds.
Prefix dict has been built successfully.
語料: [['今天天氣', '真不錯(cuò)', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]
去除標(biāo)點(diǎn): [['今天天氣', '真不錯(cuò)'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]
詞袋模型: Dictionary(7 unique tokens: ['今天天氣', '真不錯(cuò)', '下雨', '明天', '要']...)
編號: {'今天天氣': 0, '真不錯(cuò)': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}
以上就是Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型的詳細(xì)內(nèi)容,更多關(guān)于Python機(jī)器學(xué)習(xí)NLP自然語言處理的資料請關(guān)注腳本之家其它相關(guān)文章!
- Python結(jié)合spaCy?進(jìn)行簡易自然語言處理
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作電影影評分析
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作家暴歸類
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞向量模型
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作關(guān)鍵詞
- Python機(jī)器學(xué)習(xí)NLP自然語言處理Word2vec電影影評建模
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作新聞分類
- Python自然語言處理使用spaCy庫進(jìn)行文本預(yù)處理
相關(guān)文章
使用Python將Mysql的查詢數(shù)據(jù)導(dǎo)出到文件的方法
今天小編就為大家分享一篇關(guān)于使用Python將Mysql的查詢數(shù)據(jù)導(dǎo)出到文件的方法,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧2019-02-02
Django細(xì)致講解多對多使用through自定義中間表方法
我們在開發(fā)網(wǎng)站的時(shí)候,無可避免的需要設(shè)計(jì)實(shí)現(xiàn)網(wǎng)站的用戶系統(tǒng),我們需要實(shí)現(xiàn)包括用戶注冊、用戶登錄、用戶認(rèn)證、注銷等功能,Django作為完美主義終極框架,它默認(rèn)使用auth_user表來存儲(chǔ)用戶數(shù)據(jù),下面我們來看看Django多對多使用through自定義中間表2022-06-06
pytorch 實(shí)現(xiàn)查看網(wǎng)絡(luò)中的參數(shù)
今天小編就為大家分享一篇pytorch 實(shí)現(xiàn)查看網(wǎng)絡(luò)中的參數(shù),具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01
python實(shí)現(xiàn)將Excel文件轉(zhuǎn)換為JSON文件
在數(shù)據(jù)處理和分析中,Excel和JSON是兩種常見的數(shù)據(jù)格式,本文將詳細(xì)介紹如何使用Python將Excel文件轉(zhuǎn)換為JSON文件,我們將使用pandas庫,這是一個(gè)強(qiáng)大的數(shù)據(jù)分析工具,能夠方便地讀取和處理各種數(shù)據(jù)格式,需要的朋友可以參考下2024-07-07
python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)(一)K近鄰法
這篇文章主要為大家詳細(xì)介紹了python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)第一篇,K近鄰法的相關(guān)資料,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-01-01
opencv實(shí)現(xiàn)圖像旋轉(zhuǎn)效果
這篇文章主要為大家詳細(xì)介紹了opencv實(shí)現(xiàn)圖像旋轉(zhuǎn)效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-03-03

