Python sklearn CountVectorizer使用詳解

更新時(shí)間：2023年03月23日 11:21:31 作者：math_gao

這篇文章主要介紹了Python_sklearn_CountVectorizer使用詳解,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

簡(jiǎn)介

CountVectorizer官方文檔。

將一個(gè)文檔集合向量化為為一個(gè)計(jì)數(shù)矩陣。

如果不提供一個(gè)先驗(yàn)字典，不使用分析器做某種特征選擇，那么特征的數(shù)量將等于通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)的詞匯量。

數(shù)據(jù)預(yù)處理

兩種方法：1.可以不分詞直接投入模型；2.可以先將中文文本進(jìn)行分詞。

兩種方法產(chǎn)生的詞匯會(huì)非常不同。在后面會(huì)具體給出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始數(shù)據(jù)
text = ['很少在公眾場(chǎng)合手機(jī)外放',
        '大部分人都還是很認(rèn)真去學(xué)習(xí)的',
        '他們會(huì)用行動(dòng)來(lái)',
        '無(wú)論你現(xiàn)在有多頹廢，振作起來(lái)',
        '只需要一點(diǎn)點(diǎn)地改變',
        '你的外在和內(nèi)在都能煥然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分詞
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

構(gòu)建模型

訓(xùn)練模型

#構(gòu)建模型
vectorizer = CountVectorizer()
#訓(xùn)練模型
X = vectorizer.fit_transform(text)

所有詞匯：model.get_feature_names()

#所有文檔匯集后生成的詞匯
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分詞生成的詞匯

分詞后生成的詞匯

計(jì)數(shù)矩陣：X.toarray()

#每個(gè)文檔相對(duì)詞匯量出現(xiàn)次數(shù)形成的矩陣
matrix = X.toarray()
print(matrix)

#計(jì)數(shù)矩陣轉(zhuǎn)化為DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

詞匯索引：model.vocabulary_

print(vectorizer.vocabulary_)

到此這篇關(guān)于Python_sklearn_CountVectorizer使用詳解的文章就介紹到這了,更多相關(guān)Python_sklearn_CountVectorizer使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

Python中相見(jiàn)恨晚的技巧(記得收藏)
這篇文章主要介紹了一些Python中相見(jiàn)恨晚的使用技巧，幫助大家更好的理解和學(xué)習(xí)使用python，感興趣的朋友可以了解下
2021-04-04
Python如何把多個(gè)PDF文件合并代碼實(shí)例
這篇文章主要介紹了Python如何把多個(gè)PDF文件合并,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-02-02
卸載所有通過(guò)pip安裝的Python包的方法總結(jié)(Windows系統(tǒng))
這篇文章主要介紹了卸載所有通過(guò)pip安裝的Python包的方法總結(jié)(Windows系統(tǒng)),文中通過(guò)代碼示例和圖文講解的非常詳細(xì),并具有一定的參考價(jià)值,需要的朋友可以參考下
2024-08-08
python實(shí)現(xiàn)合并兩個(gè)排序的鏈表
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)合并兩個(gè)排序的鏈表，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2019-03-03
Python元組拆包和具名元組解析實(shí)例詳解
這篇文章主要介紹了Python元組拆包和具名元組解析,下面的內(nèi)容就圍繞元組作為數(shù)據(jù)記錄屬性展開(kāi)，并介紹帶字段名的具名元組函數(shù)namedtuple，列表屬性不再本文中敘述。
2018-03-03
Python OpenCV Hough直線檢測(cè)算法的原理實(shí)現(xiàn)
這篇文章主要介紹了Python OpenCV Hough直線檢測(cè)算法的原理實(shí)現(xiàn)，文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹，具有一定的參考價(jià)值，需要的朋友可以參考一下
2022-07-07
Python補(bǔ)齊字符串長(zhǎng)度的實(shí)例
今天小編就為大家分享一篇Python補(bǔ)齊字符串長(zhǎng)度的實(shí)例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2018-11-11
Linux(Redhat)安裝python3.6虛擬環(huán)境(推薦)
這篇文章主要介紹了Linux(Redhat)安裝python3.6虛擬環(huán)境，非常不錯(cuò)，具有參考借鑒價(jià)值 ,需要的朋友可以參考下
2018-05-05
python logging 重復(fù)寫(xiě)日志問(wèn)題解決辦法詳解
這篇文章主要介紹了python logging 重復(fù)寫(xiě)日志問(wèn)題解決辦法詳解，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-08-08
用Python實(shí)現(xiàn)web端用戶登錄和注冊(cè)功能的教程
這篇文章主要介紹了用Python實(shí)現(xiàn)web端用戶登錄和注冊(cè)功能的教程,需要的朋友可以參考下
2015-04-04