使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例

更新時(shí)間：2018年06月05日 15:14:25 作者：Johline

今天小編就為大家分享一篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

如下所示：

<strong><span style="font-size:14px;">文本過濾</span></strong>

result = re.sub(r'[^\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)

result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)和數(shù)字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和數(shù)字

文本去除兩個(gè)以上空格

content=re.sub(r'\s{2,}', '', content)

bas4編碼變成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", decodestr.decode())#只保留中文和標(biāo)點(diǎn)和數(shù)字 
 return result

文本去停用詞

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一個(gè)詞典，來彌補(bǔ)結(jié)巴分詞中沒有的詞語(yǔ)，從而保證更高的正確率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#關(guān)鍵詞提取，在這里對(duì)jieba的tfidf.py進(jìn)行了修改 
 return keyWord

以上這篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Pandas篩選某列過濾的方法
本文主要介紹了Pandas篩選某列過濾的方法，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2023-01-01
舉例講解Python設(shè)計(jì)模式編程中的訪問者與觀察者模式
這篇文章主要介紹了Python設(shè)計(jì)模式編程中的訪問者與觀察者模式,設(shè)計(jì)模式的制定有利于團(tuán)隊(duì)協(xié)作編程代碼的協(xié)調(diào),需要的朋友可以參考下
2016-01-01
Python生成器實(shí)現(xiàn)簡(jiǎn)單"生產(chǎn)者消費(fèi)者"模型代碼實(shí)例
這篇文章主要介紹了Python生成器實(shí)現(xiàn)簡(jiǎn)單"生產(chǎn)者消費(fèi)者"模型代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-03-03
Pydantic中BaseConfig的具體使用
本文主要介紹了Pydantic中BaseConfig的具體使用,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2024-06-06
一文帶你掌握Matplotlib風(fēng)格與樣式
學(xué)過Python的小伙伴都會(huì)知道,Matplotlib是Python生態(tài)最好用的可視化工具庫(kù),下面這篇文章主要給大家介紹了關(guān)于Matplotlib風(fēng)格與樣式的相關(guān)資料,需要的朋友可以參考下
2023-09-09
Python GUI編程之tkinter 關(guān)于 ttkbootstrap 的使用
ttkbootstrap 是一個(gè)基于 tkinter 的界面美化庫(kù)，使用這個(gè)工具可以開發(fā)出類似前端 bootstrap 風(fēng)格的 tkinter 桌面程序，這篇文章主要介紹了Python GUI編程之tkinter 關(guān)于 ttkbootstrap 的使用詳解,需要的朋友可以參考下
2022-03-03
解決PyCharm不在run輸出運(yùn)行結(jié)果而不是再Console里輸出的問題
這篇文章主要介紹了解決PyCharm不在run輸出運(yùn)行結(jié)果而不是再Console里輸出的問題,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2020-09-09
Python中最大遞歸深度值的探討
今天小編就為大家分享一篇關(guān)于Python中最大遞歸深度值的探討，小編覺得內(nèi)容挺不錯(cuò)的，現(xiàn)在分享給大家，具有很好的參考價(jià)值，需要的朋友一起跟隨小編來看看吧
2019-03-03
2行Python代碼實(shí)現(xiàn)給pdf文件添加水印
你們?cè)诮oPDF文件添加水印時(shí)，還在手動(dòng)一頁(yè)頁(yè)添加嗎？本文小編為大家?guī)砹艘粋€(gè)更方便的方法，即用Python的2行代碼來實(shí)現(xiàn)，感興趣的小伙伴可以學(xué)習(xí)一下
2022-02-02
Tensorflow 實(shí)現(xiàn)修改張量特定元素的值方法
今天小編就為大家分享一篇Tensorflow 實(shí)現(xiàn)修改張量特定元素的值方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2018-07-07