Python?讀取?Word?文檔操作

更新時(shí)間：2022年08月19日 15:04:43 作者：盼小輝丶

這篇文章主要介紹了Python讀取Word文檔操作，文章圍繞主題展開詳細(xì)的內(nèi)容介紹，具有一定的參考價(jià)值，需要的小伙伴可以參考一下

前言

Word 文檔 (.docx) 是另一種主要用于存儲(chǔ)文本的常見文檔。它們通常由 Microsoft Office 創(chuàng)建和編輯，但也可以使用其他工具生成兼容文件。它們通常是共享可編輯文件的最常見格式，同時(shí)在分發(fā)文檔時(shí)也非常常見。

Python 讀取 Word 文檔

安裝 python-docx庫

在本節(jié)中，我們將學(xué)習(xí)如何使用 Python 從 Word 文檔中提取文本信息。我們主要使用 python-docx 庫來讀取和處理 Word 文檔，其安裝方法與其它第三方庫完全相同：

$ pip install python-docx

首先，導(dǎo)入 python-docx 庫：

>>> import docx

打開 document_1.docx 文件：

>>> doc = docx.Document('document_1.docx')

檢查存儲(chǔ)在 core_properties 中的元數(shù)據(jù)屬性，需要訪問 core_properties 屬性。這些屬性是為 Word 定義的文檔元數(shù)據(jù)屬性，例如作者或創(chuàng)建日期。但并非所有文檔都具有這些元數(shù)據(jù)信息，因?yàn)樵S多生成 Word 文檔的工具不一定會(huì)填充這些屬性：

>>> doc.core_properties.title
'Research Overview of Adversarial Attacks and Defenses on Graphs'
>>> doc.core_properties.keywords
'Abstract'
>>> doc.core_properties.modified
datetime.datetime(2020, 8, 1, 3, 11)

Word 文檔中最重要的特點(diǎn)是數(shù)據(jù)以段落(而不是頁)的形式結(jié)構(gòu)化。字體大小、段落縮進(jìn)和其他因素都可能會(huì)使頁數(shù)發(fā)生變化。檢查段落數(shù)：

>>> len(doc.paragraphs)
28

瀏覽段落以檢測包含文本的段落，大多數(shù)段落通常是空的，或者只包含換行符、制表符或其他空白字符，檢查段落時(shí)我們通常跳過這些空段落：

>>> for index, paragraph in enumerate(doc.paragraphs):
... ????if paragraph.text:
... ????????????print(index, paragraph.text)=
...
0 圖對抗攻防綜述
1 摘 要：
3 關(guān)鍵字：
5 Research Overview of Adversarial Attacks and Defenses on Graphs
6 Abstract
7 Deep neural networks (DNNs) have been widely applied to various applications, including image classification, ...
8 ...
...
27 參考文獻(xiàn)

可以利用 paragraphs 屬性獲取文檔段落列表并提取原始格式的文本，這些文本不包括樣式信息，通常是自動(dòng)處理數(shù)據(jù)時(shí)最常用的屬性。獲取第 5 段和第 6 段的文本，分別對應(yīng)第一頁的標(biāo)題和副標(biāo)題：

>>> doc.paragraphs[5].text
'Research Overview of Adversarial Attacks and Defenses on Graphs'
>>> doc.paragraphs[6].text
'Abstract '

每個(gè)段落都有一個(gè) runs 屬性，這是具有不同樣式屬性的文本分割列表。檢查不同文本段落是否為粗體或斜體：

>>> doc.paragraphs[5].runs[0].bold
True
>>> doc.paragraphs[5].runs[0].italic
>>> doc.paragraphs[6].runs[0].bold
>>> doc.paragraphs[6].runs[0].italic
True

在示例 Word 文檔中，大多數(shù)段落只有一個(gè) run (即每個(gè)段落使用相同的樣式)，但我們在第 7 段中文本具有許多不同的樣式。例如，Deep neural networks 使用粗體樣式，DNNs 使用斜體樣式：

>>> run_0 = doc.paragraphs[7].runs[0]
>>> run_0.text
'Deep neural networks'
>>> run_0.bold
True
>>> run_13 = doc.paragraphs[7].runs[13]
>>> run_13.text
'DNNs'
>>> run_13.italic
True