Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型

更新時(shí)間：2021年09月21日 14:11:50 作者：我是小白呀

本文是Python機(jī)器學(xué)習(xí)NLP自然語言處理系列文章，帶大家開啟一段學(xué)習(xí)自然語言處理 (NLP) 的旅程。本篇文章主要學(xué)習(xí)NLP自然語言處理基本操作之詞袋模型

概述

從今天開始我們將開啟一段自然語言處理 (NLP) 的旅程. 自然語言處理可以讓來處理, 理解, 以及運(yùn)用人類的語言, 實(shí)現(xiàn)機(jī)器語言和人類語言之間的溝通橋梁.

在這里插入圖片描述

詞袋模型

詞袋模型 (Bag of Words Model) 能幫助我們把一個(gè)句子轉(zhuǎn)換為向量表示. 詞袋模型把文本看作是無序的詞匯集合, 把每一單詞都進(jìn)行統(tǒng)計(jì).

在這里插入圖片描述

向量化

詞袋模型首先會(huì)進(jìn)行分詞, 在分詞之后. 通過通過統(tǒng)計(jì)在每個(gè)詞在文本中出現(xiàn)的次數(shù). 我們就可以得到該文本基于詞語的特征, 如果將各個(gè)文本樣本的這些詞與對應(yīng)的詞頻放在一起, 就是我們常說的向量化.

在這里插入圖片描述

例子:

import jieba
from gensim import corpora
# 定義標(biāo)點(diǎn)符號
punctuation = ["，", "。", "：", "；", "?", "!"]
# 定義語料
content = [
    "今天天氣真不錯(cuò)!",
    "明天要下雨?",
    "后天要打雷。"
]
# 分詞
seg = [jieba.lcut(con) for con in content]
print("語料:", seg)

# 去除標(biāo)點(diǎn)符號
tokenized = seg.copy()
for s in tokenized:
    for p in punctuation:
        if p in s:
            s.remove(p)
print("去除標(biāo)點(diǎn):", tokenized)
# tokenized是去標(biāo)點(diǎn)之后的
dictionary = corpora.Dictionary(seg)
print("詞袋模型:", dictionary)

# 保存詞典
dictionary.save('deerwester.dict')
# 查看字典和下標(biāo)id的映射
print("編號:", dictionary.token2id)

輸出結(jié)果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.140 seconds.
Prefix dict has been built successfully.
語料: [['今天天氣', '真不錯(cuò)', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]
去除標(biāo)點(diǎn): [['今天天氣', '真不錯(cuò)'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]
詞袋模型: Dictionary(7 unique tokens: ['今天天氣', '真不錯(cuò)', '下雨', '明天', '要']...)
編號: {'今天天氣': 0, '真不錯(cuò)': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}

以上就是Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型的詳細(xì)內(nèi)容，更多關(guān)于Python機(jī)器學(xué)習(xí)NLP自然語言處理的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

相關(guān)文章

python sorted方法和列表使用解析
這篇文章主要介紹了python sorted方法和列表使用解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-11-11
使用Python將Mysql的查詢數(shù)據(jù)導(dǎo)出到文件的方法
今天小編就為大家分享一篇關(guān)于使用Python將Mysql的查詢數(shù)據(jù)導(dǎo)出到文件的方法，小編覺得內(nèi)容挺不錯(cuò)的，現(xiàn)在分享給大家，具有很好的參考價(jià)值，需要的朋友一起跟隨小編來看看吧
2019-02-02
python最長回文串算法
這篇文章主要為大家詳細(xì)介紹了python最長回文串算法的實(shí)踐，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-06-06
Python 轉(zhuǎn)換RGB顏色值的示例代碼
這篇文章主要介紹了Python 轉(zhuǎn)換RGB顏色值的示例代碼，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-10-10
Django細(xì)致講解多對多使用through自定義中間表方法
我們在開發(fā)網(wǎng)站的時(shí)候，無可避免的需要設(shè)計(jì)實(shí)現(xiàn)網(wǎng)站的用戶系統(tǒng),我們需要實(shí)現(xiàn)包括用戶注冊、用戶登錄、用戶認(rèn)證、注銷等功能，Django作為完美主義終極框架，它默認(rèn)使用auth_user表來存儲(chǔ)用戶數(shù)據(jù)，下面我們來看看Django多對多使用through自定義中間表
2022-06-06
pytorch 實(shí)現(xiàn)查看網(wǎng)絡(luò)中的參數(shù)
今天小編就為大家分享一篇pytorch 實(shí)現(xiàn)查看網(wǎng)絡(luò)中的參數(shù)，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
python實(shí)現(xiàn)將Excel文件轉(zhuǎn)換為JSON文件
在數(shù)據(jù)處理和分析中,Excel和JSON是兩種常見的數(shù)據(jù)格式,本文將詳細(xì)介紹如何使用Python將Excel文件轉(zhuǎn)換為JSON文件,我們將使用pandas庫,這是一個(gè)強(qiáng)大的數(shù)據(jù)分析工具,能夠方便地讀取和處理各種數(shù)據(jù)格式,需要的朋友可以參考下
2024-07-07
python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)（一）K近鄰法
這篇文章主要為大家詳細(xì)介紹了python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)第一篇，K近鄰法的相關(guān)資料，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-01-01
opencv實(shí)現(xiàn)圖像旋轉(zhuǎn)效果
這篇文章主要為大家詳細(xì)介紹了opencv實(shí)現(xiàn)圖像旋轉(zhuǎn)效果，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2021-03-03
Python打印九九乘法表的5種方式代碼示例
在Python中打印99乘法表的方法有很多種,比如for-for、while-while、while-for等,這篇文章主要給大家介紹了關(guān)于Python打印九九乘法表的5種方式,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下
2024-04-04