Python 2/3下處理cjk編碼的zip文件的方法
今天項(xiàng)目中遇到了中文編碼的zip文件,處理了蠻長(zhǎng)時(shí)間,所以記錄下,以免下次踩坑。
Python2下
Python2中讀取zip文件,zipfile.ZipInfo的filename類型是str,基本上類似于python3中的bytes,即可以被decode為unicode。
所以,要處理中文,只需要將文件名按照編碼decode成unicode就好。
import zipfile
fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
print fileinfo.filename.decode('gb18030')
# 如果要更加詳細(xì)的區(qū)分bytes/str/unicode的語(yǔ)義
print bytes(fileinfo.filename).decode('gb18030')
Python3下
Python3中,Language encoding flag (EFS)如果是1,則按照utf8來處理文件編碼,EFS如果為0,則直接按照cp437解碼文件名。這是標(biāo)準(zhǔn)直接規(guī)定的。
但是,很多軟件在制作zip壓縮包的時(shí)候,直接使用gb18030或者其他非標(biāo)準(zhǔn)編碼格式來編碼文件名,所以我們還得將文件名反轉(zhuǎn)為bytes,然后再使用對(duì)應(yīng)的編碼方式解碼:
fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
print(fileinfo.filename.encode('cp437').decode('gb18030'))
方法都有了,那直接根據(jù)文件名智能猜測(cè)文件編碼,然后解壓就好。但是由于單個(gè)文件名太短,chardet的猜測(cè)可能不準(zhǔn),所以我們可以直接將所有的文件名連接起來,猜測(cè)編碼。
代碼請(qǐng)參考 mczip ,兼容python2和python3。
總結(jié)
以上所述是小編給大家介紹的Python 2/3下處理cjk編碼的zip文件的方法,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
如果你覺得本文對(duì)你有幫助,歡迎轉(zhuǎn)載,煩請(qǐng)注明出處,謝謝!
相關(guān)文章
Python常見加密模塊用法分析【MD5,sha,crypt模塊】
這篇文章主要介紹了Python常見加密模塊用法,結(jié)合實(shí)例形式較為詳細(xì)的分析了MD5,sha與crypt模塊加密的相關(guān)實(shí)現(xiàn)方法與操作技巧,需要的朋友可以參考下2017-05-05
淺談TensorFlow中讀取圖像數(shù)據(jù)的三種方式
這篇文章主要介紹了淺談TensorFlow中讀取圖像數(shù)據(jù)的三種方式,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-06-06
PyTorch一小時(shí)掌握之神經(jīng)網(wǎng)絡(luò)氣溫預(yù)測(cè)篇
這篇文章主要介紹了PyTorch一小時(shí)掌握之神經(jīng)網(wǎng)絡(luò)氣溫預(yù)測(cè)篇,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-09-09
python標(biāo)準(zhǔn)庫(kù)中inspect模塊的簡(jiǎn)單說明
這篇文章主要介紹了python標(biāo)準(zhǔn)庫(kù)中inspect模塊的簡(jiǎn)單介紹,inspect模塊提供了幾個(gè)有用的函數(shù)來幫助獲取有關(guān)活動(dòng)對(duì)象的信息,例如模塊,類,方法,函數(shù),回溯,框架對(duì)象和代碼對(duì)象,需要的朋友可以參考下2023-08-08
解決Pytorch中Batch Normalization layer踩過的坑
這篇文章主要介紹了解決Pytorch中Batch Normalization layer踩過的坑,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05
PyCharm:method may be static問題及解決
這篇文章主要介紹了PyCharm:method may be static問題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07
anaconda升級(jí)sklearn版本的實(shí)現(xiàn)方法
這篇文章主要介紹了anaconda升級(jí)sklearn版本的實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-02-02

