Python?RawString與open文件的newline換行符遇坑解決
背景
一次工作中,我需要完成某個文件的字符串替換。
需求是這樣的:文件A有個占位符,需要利用Python3,把占位符替換成文件B的內(nèi)容。文件都不大,可以一次性讀到內(nèi)存處理。
我想,這不是簡單的open read replace write就搞定了嘛?
結(jié)果,還真有點麻煩!
思路
- 全量讀取文件A,保存到變量templace
- 全量讀取文件B,保存到變量text
- 利用python的
re.sub實現(xiàn)正則替換,保存到新變量result - 把變量result內(nèi)容寫入文件A
with open('A', encoding='utf8') as f:
template = f.read()
with open('B', encoding='utf8') as f:
text = f.read()
result = re.sub(r'占位標識符', text, template, 1)
with open('A', 'w', encoding='utf8') as f:
f.write(result)
遇到的問題
文件B內(nèi)有換行符,也有字符串\n,按上文的方式處理后,所有的字符串\n都變成了換行符!
舉個例子,template是我是:{}(其中{}就是占位符),text是下面的文本:
哈哈 哈哈\n哈哈
替換后,如下圖所示:

可以看到,當我打印re.sub結(jié)果時,所有的\n都變成了換行符,字符串\n消失了!
這的確令人煩躁,本來五分鐘可以搞定,結(jié)果要花多余的時間處理這個問題。如果你學會了本文,以后都不用再去費腦筋了~
思考過程
一開始遇到這個問題,是在寫入文件后發(fā)現(xiàn)的,所以并沒定位的這么準確,當時跟換行符相關的,我懷疑了以下方面:
- 字符串定義沒有使用 Raw String(例如
r'xxx'這種方式)。 - 正則替換出了問題。
- 寫入文件時,
newline參數(shù)導致。
如果我們能把這3個問題全都弄清楚,以后定位就非??炝耍?/p>
Raw String
Python中,如果字符串常量的定義前加了個r,就表示 Raw String 原始字符串。
Raw String 特點在于,字符串常量里的\將不具有轉(zhuǎn)義作用,它僅僅代表它自己。
例如,你定義個普通字符串"\n",這個字符串長度其實是1,它只包含了1個換行符,對應的 ASCII 是10。
如果你定義了原始字符串"\n",這個字符串長度就是2,它包含了字符\和字符n。
如果字符串沒轉(zhuǎn)義字符,那么 Raw String 跟普通 String 完全一致
轉(zhuǎn)義字符有這些:

也就是說r'\haha'跟'\haha'是完全一致的,因為\h不是轉(zhuǎn)義字符,所以這種情況下,沒必要加r。

誤區(qū):注意單個字符的引號問題
有一個令人疑惑的點:理論上講,r'\'應該就是'\\',但是當你使用r'\'時,Python會報錯。
這是因為Python在編譯時,讀取字符串時,如果字符串以單引號開頭,遇到\'后,不論你是不是Raw String,都會繼續(xù)認為是字符串,不會把'當作結(jié)束符。估計是一個歷史遺留問題。我們只能接受現(xiàn)實。
如何證明呢?你給字符后面加個空格,發(fā)現(xiàn)它們是相等的:r'\ '和'\\ '。但是單獨的字符r'\'就報錯了。

但是這種情況只有r'\'或r"\"才會發(fā)生,如果字符串長度為2,是沒問題的,例如r"\\"可以被合法定義。

啟發(fā)
定義字符串時,如果你是這么定義:"哈哈\n哈哈",那么這個字符串長度是5,包含了1個換行符。
如果你是這么定義:r"哈哈\n哈哈",那么這個字符串長度是6,不包含換行符,包含字符\和n。
同樣,當你寫入文件時,如果是f.write('\n'),就表明寫入了換行符,但如果是f.write(r'\n'),就表明寫入了字符串"\n"。
正則替換的問題
這是導致本文問題的根本原因。使用re.sub時,所有的字符串r"\n"都被當作了換行符。
怎么辦呢?
只要我們替換前,把原始文件對應的字符串的r"\n"都改為r"\\n",手動多加了一次轉(zhuǎn)義符,那么re.sub時,就不會把r"\n"當作一個整體改成換行符了,反而會把r"\\"當作一個整體,替換為字符\。這樣r"\n"字符串就保留下來了!當然,其它轉(zhuǎn)義字符,也統(tǒng)統(tǒng)保留下來了。這就是正確的解法了。
open 文件的 newline 參數(shù)
with open(filename, 'r', newline=None) as f: f.read()
這個主要是因為不同操作系統(tǒng)的換行符不同,所以有了這個參數(shù)。Windows 是 CRLF 即 \r\n,Unix 是 LF 即\n,舊版 Macintosh 是 CR 即\r。

通常情況下,我們不需要加這個參數(shù),Python 會自動為我們做這些事情:
- 讀取文件時,自動把文本中的各種換行符統(tǒng)一轉(zhuǎn)換為
"\n"。 - 寫入文件時,根據(jù)當前的操作系統(tǒng),自動把
"\n"轉(zhuǎn)換為對應的換行符,通過os.linesep可以查看當前操作系統(tǒng)換行符。
當然,你也可以主動設置 newline 參數(shù):
- 讀取文件時,如果 newline 是空字符串
'',則Python不會做任何自動轉(zhuǎn)換,讀到什么就是什么。 - 讀取文件時,如果 newline 是非空字符串,則Python會把換行符轉(zhuǎn)化為這個非空字符串,例如你可以指定為
'\r'或'\r\n'或其它。 - 寫入文件時,如果 newline 是空字符串
'',則Python不會做任何自動轉(zhuǎn)換,現(xiàn)在換行符是什么,就寫入什么。 - 寫入文件時,如果 newline 是非空字符串,則Python會把
\n轉(zhuǎn)化為這個非空字符串,例如你可以指定為'\r'或'\r\n'或其它。
注意,newline 參數(shù)只對文本文件有效,如果是二進制讀寫,newline 是無用的。
其實,大部分時候我們無需關注這個 newline 參數(shù)。
以上就是Python RawString與open文件的newline換行符遇坑解決的詳細內(nèi)容,更多關于Python RawString open文件 newline換行符的資料請關注腳本之家其它相關文章!
相關文章
Pytorch中torch.unsqueeze()與torch.squeeze()函數(shù)詳細解析
torch.squeeze()這個函數(shù)主要對數(shù)據(jù)的維度進行壓縮,去掉維數(shù)為1的的維度,下面這篇文章主要給大家介紹了關于Pytorch中torch.unsqueeze()與torch.squeeze()函數(shù)詳細的相關資料,需要的朋友可以參考下2023-02-02
Python中執(zhí)行JavaScript實現(xiàn)數(shù)據(jù)抓取的多種方法
JavaScript是一門強大的腳本語言,廣泛應用于網(wǎng)頁前端開發(fā)、構(gòu)建交互式用戶界面以及處理各種客戶端端任務,有時可能需要在Python環(huán)境中執(zhí)行JavaScript代碼,本文將介紹多種方法,幫助你在Python中執(zhí)行 JavaScript代碼,并提供詳盡的示例代碼,使你能夠輕松掌握這一技能2023-11-11
django-crontab 定時執(zhí)行任務方法的實現(xiàn)
這篇文章主要介紹了django-crontab 定時執(zhí)行任務方法的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-09-09
python之openpyxl模塊的安裝和基本用法(excel管理)
這篇文章主要給大家介紹了關于python之openpyxl模塊的安裝和基本用法的相關資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-02-02
python實現(xiàn)簡單的學生成績管理系統(tǒng)
這篇文章主要為大家詳細介紹了python實現(xiàn)簡單的學生成績管理系統(tǒng),文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-02-02
使用python將微信image下.dat文件解密為.png的方法
這篇文章主要介紹了使用python將微信image下.dat文件解密為.png的方法,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-11-11
OpenCV MediaPipe實現(xiàn)顏值打分功能
這篇文章主要介紹了通過OpenCV MediaPipe實現(xiàn)攝像頭實時檢測顏值打分功能,文中的示例代碼講解詳細,對我們學習Python有一定的幫助,感興趣的可以了解一下2021-12-12

