解決python 使用openpyxl讀寫大文件的坑
由于需要處理xlsx類型的文件,我使用了openpyxl來處理,然而文件比較大,大約有60多MB。讀文件的時候雖然慢了一點,但還是能夠讀出來,但是當我想寫入時卻報錯了。

顯示設備沒有多余的空間,百度了一下,發(fā)現(xiàn)有不少關于openpyxl讀寫大文件的問題。總結來看,解決方案主要有以下兩種,當然,我兩種都用上了。
手動釋放內存
del wb, ws gc.collect()
這一招還算有用,在讀完文件后可以看到內存占用明顯下降了一點。
安裝lxml
使用命令·pip install lxml安裝依賴
這個依賴并非必須安裝的依賴,但是可以使openpyxl流式處理數(shù)據(jù)。
總之使用了以上兩種方案后,終于可以成功處理數(shù)據(jù)了。
補充:openpyxl讀取大文件的若干問題
需要編寫一個EXCEL文件對比工具
excel文件通常8MB,300張左右的表,每張表實際范圍為ZZ500.
使用openpyxl對表格進行遍歷,完成兩個表之間的對比,找出公式不相同的單元格編程中遇到若干問題
1、讀取時報錯,錯誤代碼忘記了,原因是通過數(shù)組的方式讀取了一個不存在的數(shù)值
如 SS['AA'],這個數(shù)值沒有定義,因此報錯(PHP直接返回空值),使用SS.get('AA',null)進行修改
D:\Python34\Lib\site-packages\openpyxl\reader\style.py
164: format_code = builtin_formats.get(numFmtId,'General')
2、讀取時內存占用過大
基本就是內存占用了2G以上以后,程序就不動了,原因是某些表格的表格范圍識別的非常大,最大可為ZZ65535
通過研究,代碼進行了如下修改
1:使用X64版本,X64版本在運行時,可以運行4G以內內存占用的程序,比2G大一倍,能夠完成大部分表格的讀取,如ZZ5000,但是遇到ZZ65535范圍的表格,內存占用達到了4G+,也會導致程序停止運行.
2:限制最大單元格遍歷范圍,最大限制為ZZ5000,能夠有效降低內存占用
3:定時重新讀取EXCEL文件(如每對比30張表),釋放內存,(Python內存釋放真的很痛苦,全部是指針引用,A=B,DEL A;是不會釋放空間的,要DEL B才行).
4:雖然openpyxl讀取文件時有個只讀模式(性能模式),但是速度實在是太慢了.
通過代碼修改,現(xiàn)在完成文件對比所用的內存通常在2G以內
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。
相關文章
使用Django實現(xiàn)文章與多個標簽關聯(lián)的示例詳解
在構建一個博客或內容管理系統(tǒng)時,經常需要實現(xiàn)文章與標簽的關聯(lián),在 Django 中,我們可以利用 ManyToManyField 來實現(xiàn)文章與標簽的多對多關系,在本文中,我們將詳細探討如何使用 Django 模型實現(xiàn)文章與多個標簽的關聯(lián),需要的朋友可以參考下2023-11-11
Ranorex通過Python將報告發(fā)送到郵箱的方法
這篇文章主要介紹了Ranorex通過Python將報告發(fā)送到郵箱的方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-01-01
python中numpy數(shù)組與list相互轉換實例方法
在本篇文章里小編給大家整理的是一篇關于python中numpy數(shù)組與list相互轉換實例方法,對此有興趣的朋友們可以學習下。2021-01-01
基于Python的ModbusTCP客戶端實現(xiàn)詳解
這篇文章主要介紹了基于Python的ModbusTCP客戶端實現(xiàn)詳解,Modbus Poll和Modbus Slave是兩款非常流行的Modbus設備仿真軟件,支持Modbus RTU/ASCII和Modbus TCP/IP協(xié)議 ,經常用于測試和調試Modbus設備,觀察Modbus通信過程中的各種報文,需要的朋友可以參考下2019-07-07

