python使用正則表達式去除中文文本多余空格,保留英文之間空格方法詳解
在pdf轉(zhuǎn)為文本的時候,經(jīng)常會多出空格,影響數(shù)據(jù)觀感,因此需要去掉文本中多余的空格,而文本中的英文之間的正常空格需要保留,輸入輸出如下:
input:我今天 賺了 10 個億,老百姓very happy。
output:我今天賺了10個億,老百姓very happy。
代碼
def clean_space(text):
""""
處理多余的空格
"""
match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
should_replace_list = match_regex.findall(text)
order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
for i in order_replace_list:
if i == u' ':
continue
new_i = i.strip()
text = text.replace(i,new_i)
return text
python去除英文單詞之間多余的空格
re.sub(" +", " ", s)
import re
s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. "
re.sub(" +", " ", s)
' '.join(s.split())
s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. " s = ' '.join(s.split()) s
更多關(guān)于python使用正則表達式去除多余空格方法請查看下面的相關(guān)鏈接
相關(guān)文章
淺談Python函數(shù)式編程的返回函數(shù)與匿名函數(shù)
這篇文章主要介紹了淺談Python函數(shù)式編程的返回函數(shù)與匿名函數(shù),如果一個變量指向了一個函數(shù),那么,可以通過該變量來調(diào)用這個函數(shù),需要的朋友可以參考下2023-04-04
selenium 安裝與chromedriver安裝的方法步驟
這篇文章主要介紹了selenium 安裝與chromedriver安裝的方法步驟,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-06-06
在Python3 numpy中mean和average的區(qū)別詳解
今天小編就為大家分享一篇在Python3 numpy中mean和average的區(qū)別詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08
Tensor 和 NumPy 相互轉(zhuǎn)換的實現(xiàn)
本文主要介紹了Tensor 和 NumPy 相互轉(zhuǎn)換的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02

