Python sklearn CountVectorizer使用詳解
簡(jiǎn)介
將一個(gè)文檔集合向量化為為一個(gè)計(jì)數(shù)矩陣。
如果不提供一個(gè)先驗(yàn)字典,不使用分析器做某種特征選擇,那么特征的數(shù)量將等于通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)的詞匯量。
數(shù)據(jù)預(yù)處理
兩種方法:1.可以不分詞直接投入模型;2.可以先將中文文本進(jìn)行分詞。
兩種方法產(chǎn)生的詞匯會(huì)非常不同。在后面會(huì)具體給出示范。
import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始數(shù)據(jù)
text = ['很少在公眾場(chǎng)合手機(jī)外放',
'大部分人都還是很認(rèn)真去學(xué)習(xí)的',
'他們會(huì)用行動(dòng)來(lái)',
'無(wú)論你現(xiàn)在有多頹廢,振作起來(lái)',
'只需要一點(diǎn)點(diǎn)地改變',
'你的外在和內(nèi)在都能煥然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分詞
text = [' '.join(jieba.lcut(tt)) for tt in text]
text
構(gòu)建模型
訓(xùn)練模型
#構(gòu)建模型 vectorizer = CountVectorizer() #訓(xùn)練模型 X = vectorizer.fit_transform(text)
所有詞匯:model.get_feature_names()
#所有文檔匯集后生成的詞匯 feature_names = vectorizer.get_feature_names() print(feature_names)
不分詞生成的詞匯

分詞后生成的詞匯

計(jì)數(shù)矩陣:X.toarray()
#每個(gè)文檔相對(duì)詞匯量出現(xiàn)次數(shù)形成的矩陣 matrix = X.toarray() print(matrix)

#計(jì)數(shù)矩陣轉(zhuǎn)化為DataFrame df = pd.DataFrame(matrix, columns=feature_names) df

詞匯索引:model.vocabulary_
print(vectorizer.vocabulary_)

到此這篇關(guān)于Python_sklearn_CountVectorizer使用詳解的文章就介紹到這了,更多相關(guān)Python_sklearn_CountVectorizer使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python中使用sklearn進(jìn)行特征降維的方法
- Python?sklearn?中的?make_blobs()?函數(shù)示例詳解
- Python?sklearn預(yù)測(cè)評(píng)估指標(biāo)混淆矩陣計(jì)算示例詳解
- Python+Sklearn實(shí)現(xiàn)異常檢測(cè)
- Python sklearn中的K-Means聚類使用方法淺析
- python?sklearn與pandas實(shí)現(xiàn)缺失值數(shù)據(jù)預(yù)處理流程詳解
- Python sklearn分類決策樹(shù)方法詳解
- Python sklearn對(duì)文本數(shù)據(jù)進(jìn)行特征化提取
相關(guān)文章
Python如何把多個(gè)PDF文件合并代碼實(shí)例
這篇文章主要介紹了Python如何把多個(gè)PDF文件合并,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-02-02
卸載所有通過(guò)pip安裝的Python包的方法總結(jié)(Windows系統(tǒng))
這篇文章主要介紹了卸載所有通過(guò)pip安裝的Python包的方法總結(jié)(Windows系統(tǒng)),文中通過(guò)代碼示例和圖文講解的非常詳細(xì),并具有一定的參考價(jià)值,需要的朋友可以參考下2024-08-08
python實(shí)現(xiàn)合并兩個(gè)排序的鏈表
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)合并兩個(gè)排序的鏈表,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-03-03
Python OpenCV Hough直線檢測(cè)算法的原理實(shí)現(xiàn)
這篇文章主要介紹了Python OpenCV Hough直線檢測(cè)算法的原理實(shí)現(xiàn),文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下2022-07-07
Python補(bǔ)齊字符串長(zhǎng)度的實(shí)例
今天小編就為大家分享一篇Python補(bǔ)齊字符串長(zhǎng)度的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-11-11
Linux(Redhat)安裝python3.6虛擬環(huán)境(推薦)
這篇文章主要介紹了Linux(Redhat)安裝python3.6虛擬環(huán)境,非常不錯(cuò),具有參考借鑒價(jià)值 ,需要的朋友可以參考下2018-05-05
python logging 重復(fù)寫(xiě)日志問(wèn)題解決辦法詳解
這篇文章主要介紹了python logging 重復(fù)寫(xiě)日志問(wèn)題解決辦法詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08
用Python實(shí)現(xiàn)web端用戶登錄和注冊(cè)功能的教程
這篇文章主要介紹了用Python實(shí)現(xiàn)web端用戶登錄和注冊(cè)功能的教程,需要的朋友可以參考下2015-04-04

