利用Python實現(xiàn)讀取Word文檔里的Excel附件

更新時間：2022年12月16日 09:06:52 作者：alitrack

這篇文章主要為大家詳細介紹了如何利用Python實現(xiàn)讀取Word文檔里的Excel附件，文中的示例代碼講解詳細，感興趣的小伙伴可以跟隨小編一起了解一下

解壓縮

這樣問題就變成了從 zip 里提取三個附件，代碼如下:

#zipfile為python自帶包
from?zipfile?import?ZipFile
with?ZipFile("test.docx",?"r")?as?zip:
????for?entry?in?zip.infolist():
????????if?not?entry.filename.startswith("word/embeddings/"):
????????????continue
????????zip.extract(entry.filename)

得到三個 ole 文件。

這段代碼等價于下面的 unzip 命令行

unzip??test.docx?word/embeddings/*
#返回
Archive:??test.docx
???creating:?word/embeddings/
??inflating:?word/embeddings/oleObject1.bin
??inflating:?word/embeddings/oleObject2.bin
??inflating:?word/embeddings/oleObject3.bin

Microsoft OLE2 文件分析與提取

分析

文件提取好后，使用 file 程序分析，得到

file?word/embeddings/oleObject1.bin
#返回
word/embeddings/oleObject1.bin:?Composite?Document?File?V2?Document,?Cannot?read?section?info

這是一個 Microsoft OLE2 文件，不是我們想要的 Excel，需要進一步分析提取，有請olefile登場。

olefile[2]（原名 OleFileIO_PL）是一個 Python 包，用于解析、讀寫 Microsoft OLE2 文件（也稱為 Structured Storage、Compound File Binary Format 或 Compound Document File Format），例如 Microsoft Office 97-2003 文檔，MS Office 中的 vbaProject.bin 2007+ 文件、Image Composer 和 FlashPix 文件、Outlook MSG 文件、StickyNotes、多種 Microscopy 文件格式、McAfee 防病毒隔離文件等。

安裝

pip?install?olefile

提取

import?olefile
f?=?"word/embeddings/oleObject1.bin"
if?olefile.isOleFile(f):
????with?olefile.OleFileIO(f)?as?ole:
????????print(ole.listdir())
????#返回[['\x01Ole'],?['\x03ObjInfo'],?['package']]
????#?經(jīng)分析只有package里放著我們需要的信息
????????bin_data?=?ole.openstream("package").read()
????????fn?=?f.replace("word/embeddings/","")
????????with?open(fn,?"wb")?as?output_file:
????????????output_file.write(bin_data)

再次使用 file 分析

file?oleObject1.bin
#返回
oleObject1.bin:?Microsoft?Excel?2007+

是我們想要的 Excel 文件。

完整代碼如下

import?olefile
from?zipfile?import?ZipFile
def?get_ole(filename):
????with?ZipFile(filename,?"r")?as?zip:
????????for?entry?in?zip.infolist():
????????????if?not?entry.filename.startswith("word/embeddings/"):
????????????????continue
????????????with?zip.open(entry.filename)?as?f:
????????????????if?not?olefile.isOleFile(f):
????????????????????continue
????????????????with?olefile.OleFileIO(f)?as?ole:
????????????????????bin_data?=?ole.openstream("package").read()
????????????????????fn?=?entry.filename.replace("word/embeddings/","")
???????????#如果想直接讀取，可以把下面兩行代碼換成需要的代碼。
????????????????????with?open(fn,?"wb")?as?output_file:
????????????????????????output_file.write(bin_data)
if?__name__?==?'__main__':
????get_ole("/Users/steven/temp/test.docx")

使用正確的后綴保存附件

我想保存的時候使用正確后綴，怎么辦？使用filetype[3]獲得正確的后綴。

安裝

pip?install?git+https://github.com/h2non/filetype.py

最新版本支持 Office 文檔識別

獲取后綴

import?filetype
ext?=?filetype.guess_extension("oleObject1.bin")
print(ext)
#返回
xlsx

如果碰到 filetype 無法識別的，就需要考慮 python-magic 或者 file 了。

python-magic[4]是 libmagic 文件類型標識庫的 Python 接口。libmagic通過根據(jù)預定義的文件類型列表檢查文件類型的頭文件來識別文件類型。Unix 命令文件file就是依賴該庫來實現(xiàn)文件類型判斷。

安裝

Windows 推薦安裝方法

pip install python-magic-bin

Linux 和macOS還需要額外安裝libmagic

獲取后綴

import?magic
m?=?magic.Magic(extension=True)
ext?=?m.from_file("oleObject1.bin")
print(ext)
#返回
xlsx

正確的文件名

附件的原始名字是以圖片的形式存在，emf 格式，如果需要獲取原始文件名字，需要 OCR 了，同時還需要找到對應關系，這里就不展開了。

該方法稍作修改，同樣對Excel和PPT里的附件有效。

到此這篇關于利用Python實現(xiàn)讀取Word文檔里的Excel附件的文章就介紹到這了,更多相關Python讀取Word中Excel附件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python畫一個玫瑰和一個愛心
這篇文章主要教大家用python畫一個玫瑰和一個愛心，作為女生節(jié)禮物，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-08-08
Python編程中對super函數(shù)的正確理解和用法解析
可能有人會想到,Python中既然可以直接通過父類名調(diào)用父類方法為什么還會存在super函數(shù)?其實,很多人對Python中的super函數(shù)的認識存在誤區(qū),本文我們就帶來在Python編程中對super函數(shù)的正確理解和用法解析
2016-07-07
pyenv命令管理多個Python版本
這篇文章主要介紹了pyenv命令管理多個Python版本依賴環(huán)境的相關資料,需要的朋友可以參考下
2017-03-03
python中從for循環(huán)延申到推導式的具體使用
這篇文章主要介紹了python中從for循環(huán)延申到推導式的具體使用，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-11-11
python中subprocess實例用法及知識點詳解
在本篇文章里小編給大家分享的是關于python中subprocess實例用法及知識點詳解內(nèi)容，有需要的朋友們可以跟著學習下。
2021-10-10
Flask框架配置與調(diào)試操作示例
這篇文章主要介紹了Flask框架配置與調(diào)試操作,結合實例形式簡單分析了flask框架配置管理與調(diào)試模式簡單操作技巧,需要的朋友可以參考下
2018-07-07
python如何往列表頭部和尾部添加元素
這篇文章主要介紹了python如何往列表頭部和尾部添加元素，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2022-05-05
python數(shù)據(jù)爬下來保存的位置
在本篇文章里小編給大家整理的是關于python數(shù)據(jù)爬下來保存的位置，需要的朋友們可以參考下。
2020-02-02
這篇文章主要介紹了Python排序搜索基本算法之冒泡排序,簡單說明了冒泡排序的原理,并結合實例形式分析了Python實現(xiàn)冒泡排序的相關操作技巧,需要的朋友可以參考下
2017-12-12

python中多層嵌套列表的拆分方法

今天小編就為大家分享一篇python中多層嵌套列表的拆分方法，具有很好參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

2018-07-07

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

利用Python實現(xiàn)讀取Word文檔里的Excel附件

目錄

解壓縮

Microsoft OLE2 文件分析與提取

分析

安裝

提取

再次使用 file 分析

完整代碼如下

使用正確的后綴保存附件

安裝

獲取后綴

安裝

獲取后綴

正確的文件名

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

利用Python實現(xiàn)讀取Word文檔里的Excel附件

目錄

解壓縮

Microsoft OLE2 文件分析與提取

分析

安裝

提取

再次使用 file 分析

完整代碼如下

使用正確的后綴保存附件

安裝

獲取后綴

安裝

獲取后綴

正確的文件名

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕