python文本處理的方案(結巴分詞并去除符號)

更新時間：2021年05月26日 11:03:58 作者：依我去

這篇文章主要介紹了python文本處理的方案(結巴分詞并去除符號)，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教

看代碼吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精確模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """詞語提煉"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

補充：python 進行結巴分詞并且用re去掉符號

看代碼吧~

# 把停用詞做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用詞典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;:。？、~@#￥%……&*（）]+", " ", line) #去標點符號
    seg_list=jieba.cut(line,cut_all=False)  #結巴分詞
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

數據清洗之如何用一行Python代碼去掉文本中的各種符號

Python?time模塊之時間戳與結構化時間的使用
這篇文章主要為大家詳細介紹了Python中的time模塊以及如何利用time模塊實現時間戳與結構化時間，文中的示例代碼講解詳細，需要的可以參考一下
2022-06-06
Python實現音頻添加數字水印的示例詳解
數字水印技術可以將隱藏信息嵌入到音頻文件中而不明顯影響音頻質量,下面小編將介紹幾種在Python中實現音頻數字水印的方法,希望對大家有所幫助
2025-04-04
wx.CheckBox創(chuàng)建復選框控件并響應鼠標點擊事件
這篇文章主要為大家詳細介紹了wx.CheckBox創(chuàng)建復選框控件并響應鼠標點擊事件，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-04-04
在Python中定義函數并調用的操作步驟
這篇文章主要介紹了在Python中如何定義函數并調用它,函數的定義和調用是Python編程中最基本也是最重要的概念之一,掌握它們對于進行有效的Python編程至關重要,需要的朋友可以參考下
2024-01-01
Python數據序列化技術總結
在現代軟件開發(fā)中,數據序列化是一個關鍵環(huán)節(jié),它允許我們將復雜的數據結構轉換為可存儲或可傳輸的格式,,Python提供了多種數據序列化技術,每種技術都有其獨特的性能優(yōu)勢和適用場景,本文將詳細介紹幾種強大的Python數據序列化技術,需要的朋友可以參考下
2025-03-03
在pycharm中關掉ipython console/PyDev操作
這篇文章主要介紹了在pycharm中關掉ipython console/PyDev操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-06-06
Dropout?正則化對抗?過擬合
這篇文章主要為大家介紹了?Dropout?正則化對抗?過擬合重要性及應用詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2023-03-03
通俗講解Python中的五種下劃線含義
在Python中,下劃線(_)是特殊的,如果您是python程序員,對于for _ in range(10),以及__init__(self)的語法可能比較熟悉,這篇文章主要給大家介紹了關于Python中五種下劃線的相關資料,需要的朋友可以參考下
2021-10-10
python datetime處理時間小結
這篇文章主要介紹了python datetime處理時間小結，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-04-04
使用python編寫android截屏腳本雙擊運行即可
使用python編寫一個截屏的腳本，雙擊運行腳本就OK，截屏成功后會將截屏文件已當前時間命名，并保存在存放腳本的當前路徑的screenshot文件夾下
2014-07-07