Python3實(shí)現(xiàn)zip分卷壓縮過程解析
使用zipfile庫
查看 官方中文文檔
利用 Python 壓縮 ZIP 文件,我們第一反應(yīng)是使用 zipfile 庫,然而,它的官方文檔中卻明確標(biāo)注“此模塊目前不能處理分卷 ZIP 文件”,(⊙﹏⊙)
折騰經(jīng)過
翻遍了Google、CSDN、Stackoverflow等平臺(tái)均未找到解決方案,最靠譜的是調(diào)用外部解壓程序?qū)崿F(xiàn)分卷壓縮的功能。但是,如何不依靠外部程序?qū)崿F(xiàn)這個(gè)功能呢??
于是乎,只能自己慢慢造輪子??粗?ZIP 格式開發(fā)商留下的文檔 ZIP File Format Specification,頭疼?。?;´д`)。于是我拿著 WinHex 開始16進(jìn)制一個(gè)一個(gè)文件對比 WinRar 創(chuàng)建的分卷壓縮和單個(gè) zip 文件的差異。最后還真的整出來了( ̄▽ ̄)"

如果想把單個(gè)大文件 test.zip -> 分卷文件 test.z01、test.z02、test.zip
首先,在創(chuàng)建的第一個(gè)分卷文件 test.z01的前面加上 \x50\x4b\x07\x08 這個(gè)是分卷壓縮的文件頭(header),占4個(gè)字節(jié)。其實(shí)單個(gè)壓縮文件本身 header 就有這個(gè)了,而分卷壓縮的需要兩個(gè)emmm。之后便是從單個(gè)大壓縮文件文件test.zip中讀取 "一個(gè)分卷大小 -4 個(gè)字節(jié)"的數(shù)據(jù),寫入test.z01中,如何接著讀取一個(gè)分卷大小的數(shù)據(jù),寫入test.z02,以此類推,最后一個(gè)分卷文件名也是test.zip。
Python3的代碼實(shí)現(xiàn)
import os
import zipfile
def zip_by_volume(file_path, block_size):
"""zip文件分卷壓縮"""
file_size = os.path.getsize(file_path) # 文件字節(jié)數(shù)
path, file_name = os.path.split(file_path) # 除去文件名以外的path,文件名
suffix = file_name.split('.')[-1] # 文件后綴名
# 添加到臨時(shí)壓縮文件
zip_file = file_path + '.zip'
with zipfile.ZipFile(zip_file, 'w') as zf:
zf.write(file_path, arcname=file_name)
# 小于分卷尺寸則直接返回壓縮文件路徑
if file_size <= block_size:
return zip_file
else:
fp = open(zip_file, 'rb')
count = file_size // block_size + 1
# 創(chuàng)建分卷壓縮文件的保存路徑
save_dir = path + os.sep + file_name + '_split'
if os.path.exists(save_dir):
from shutil import rmtree
rmtree(save_dir)
os.mkdir(save_dir)
# 拆分壓縮包為分卷文件
for i in range(1, count + 1):
_suffix = 'z{:0>2}'.format(i) if i != count else 'zip'
name = save_dir + os.sep + file_name.replace(str(suffix), _suffix)
f = open(name, 'wb+')
if i == 1:
f.write(b'\x50\x4b\x07\x08') # 添加分卷壓縮header(4字節(jié))
f.write(fp.read(block_size - 4))
else:
f.write(fp.read(block_size))
fp.close()
os.remove(zip_file) # 刪除臨時(shí)的 zip 文件
return save_dir
if __name__ == '__main__':
file = r"D:\Downloads\1.mp4" # 原始文件
volume_size = 1024 * 1024 * 100 # 分卷大小 100MB
path = zip_by_volume(file, volume_size)
print(path) # 輸出分卷壓縮文件的路徑
缺點(diǎn)
該方法創(chuàng)建分卷壓縮的時(shí)候,需要先在磁盤創(chuàng)建一個(gè)臨時(shí)壓縮包,然后將其拆分,實(shí)際上會(huì)對磁盤寫入兩次,這就浪費(fèi)了時(shí)間。
當(dāng)然,我嘗試使用 ByteIO 進(jìn)行字節(jié)流的壓縮,但是這種方式需要先把文件讀入內(nèi)存,對于超級大的文件,這是不現(xiàn)實(shí)的,分分鐘內(nèi)存爆炸。
然后,我嘗試使用 io.pipe 的管道來處理,而 zipfile 壓縮需要提供一個(gè) file 或 file-like 對象,這個(gè)對象必須實(shí)現(xiàn) seek() 和 tell() 方法來回去寫入文件頭信息,然而管道流沒辦法seek回去修改數(shù)據(jù)。這里,參考了Python zipfile + os.pipe()探索記,屏蔽了 seek() 和 tell() 函數(shù)。但是,后面我分卷時(shí)需要指定讀取的字節(jié)數(shù),這就需要這兩個(gè)函數(shù)。。。我大概知道為什么 zipfile 庫不支持創(chuàng)建分卷文件了〒▽〒
這個(gè)庫的作者也沒少掉頭發(fā)。。?,F(xiàn)在就將就一下,這樣用著吧。。。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
K近鄰法(KNN)相關(guān)知識(shí)總結(jié)以及如何用python實(shí)現(xiàn)
這篇文章主要介紹了K近鄰法(KNN)相關(guān)知識(shí)總結(jié)以及如何用python實(shí)現(xiàn),幫助大家更好的利用python實(shí)現(xiàn)機(jī)器學(xué)習(xí),感興趣的朋友可以了解下2021-01-01
Python實(shí)現(xiàn)代碼統(tǒng)計(jì)工具
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)代碼統(tǒng)計(jì)工具,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-09-09
python實(shí)現(xiàn)字符串和字典的轉(zhuǎn)換
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)字符串和字典的轉(zhuǎn)換,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-09-09
Python實(shí)現(xiàn)輕松合并doc為txt的示例代碼
這篇文章主要為大家詳細(xì)介紹了如何利用Python編程語言和wxPython模塊,打開指定文件夾中的DOC文檔,并將它們的內(nèi)容合并成一個(gè)便捷的TXT文檔,需要的可以參考下2024-03-03
python 將html轉(zhuǎn)換為pdf的幾種方法
這篇文章主要介紹了python 將html轉(zhuǎn)換為pdf的幾種方法,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2020-12-12
python+selenium實(shí)現(xiàn)登錄賬戶后自動(dòng)點(diǎn)擊的示例
本篇文章主要介紹了python+selenium實(shí)現(xiàn)登錄賬戶后自動(dòng)點(diǎn)擊的示例,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-12-12
Python使用微信SDK實(shí)現(xiàn)的微信支付功能示例
這篇文章主要介紹了Python使用微信SDK實(shí)現(xiàn)的微信支付功能,結(jié)合實(shí)例形式分析了Python調(diào)用微信SDK接口實(shí)現(xiàn)微信支付功能的具體步驟與相關(guān)操作技巧,需要的朋友可以參考下2017-06-06

