解決python執(zhí)行較大excel文件openpyxl慢問題

更新時(shí)間：2020年05月15日 15:15:54 作者：Pcject

這篇文章主要介紹了解決python執(zhí)行較大excel文件openpyxl慢問題，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧

我就廢話不多說了，大家還是直接看代碼吧！

talk is cheap

  from openpyxl import Workbook
  from openpyxl.utils import get_column_letter
  from openpyxl import load_workbook
  import time
  wb = load_workbook("E:/a.xlsx", read_only=True)
  sh = wb["Sheet"]
  # rowItem = {}
  # for j in range(1,2000):
  #   for i in range(1, 30):
  #     rowItem[get_column_letter(i)] = i
  #   sh.append(rowItem)
  # wb.save("E:/a.xlsx")
  t0 = time.time()
  print(sh['V500'].value)
  t1 = time.time()
  print("openpyxl所用時(shí)間：", str(t1-t0))

  import xlrd
  xlsPath = "E:/a.xlsx"
  WorkBook = xlrd.open_workbook(xlsPath)
  sh = WorkBook.sheet_by_name("Sheet")

  t0 = time.time()
  print(sh.cell(499,22).value)
  t1 = time.time()
  print("xlrd所用時(shí)間：", str(t1-t0))

測試結(jié)果：

22
openpyxl所用時(shí)間： 0.44217610359191895
23.0
xlrd所用時(shí)間： 0.0010063648223876953

結(jié)論

openpyxl的慢是讀取慢，可以選擇xlrd代替，詳細(xì)測試下面繼續(xù)

不直接使用xlwt+xlrd是因?yàn)閤lwt僅支持2003及以下版本，最大行數(shù)限制在65536，不夠用，而openpyxl大概在一百多萬

主要的說完了，下面詳細(xì)說了：在寫工具的時(shí)候遇到的這個(gè)問題，開始是用的xlwt+xlrd，然后行數(shù)超標(biāo)了，沒辦法換成openpyxl使用excel2007的版本，原本測試不到三萬行的數(shù)據(jù)，只要三四秒，換成openpyxl以后，花了好幾分鐘，具體沒看多少了，然后加上函數(shù)運(yùn)行時(shí)間的監(jiān)視器以后，才看到是讀取的時(shí)候出的問題

推測原因：

推測的話，openpyxl的根據(jù)行號(hào)列號(hào)讀取的時(shí)候，是從第一行第一列開始遍歷，直到行號(hào)等于指定行號(hào)，列號(hào)等于指定列號(hào)，所以要讀取的行號(hào)列號(hào)越多就越慢，（也可能是從第一個(gè)有數(shù)據(jù)的行或列），而xlrd則是類似與數(shù)組一樣，我們要取第幾個(gè)元素，直接根據(jù)下標(biāo)找到內(nèi)存中對應(yīng)地址的元素即可，所以無論excel總量多少，速度基本都是不變的

留下的坑

xlwt寫入僅支持65536行，那xlrd的讀取很可能也是，也就是超過這么多的數(shù)據(jù)可能也會(huì)出錯(cuò)

我這里因?yàn)槭亲x多表數(shù)據(jù)生成單表數(shù)據(jù)，生成方式大概是Na*Nb這樣，所以實(shí)際讀取的不會(huì)太多，但生成的很多，所以基本可以用考慮這個(gè)問題

另外，據(jù)說xlrd讀取xlsx格式的偶爾會(huì)出現(xiàn)問題，具體沒測試，暫時(shí)用還沒毛病

最后，順帶上一下監(jiān)控函數(shù)運(yùn)行時(shí)間的裝飾器吧：

import time
from functools import wraps

def fn_timer(function):
  @wraps(function)
  def function_timer(*args, **kwargs):
    t0 = time.time()
    result = function(*args, **kwargs)
    t1 = time.time()
    print ("Total time running %s: %s seconds" %
      (function.__name__, str(t1-t0))
      )
    return result
  return function_timer

使用方式的話，就是在要監(jiān)控的函數(shù)定義上面加上 @fn_timer 就行了

以上這篇解決python執(zhí)行較大excel文件openpyxl慢問題就是小編分享給大家的全部內(nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章: