Python自動化辦公之Word文件內(nèi)容的讀取

更新時間：2022年05月11日 09:05:40 作者：渴望力量的哈士奇

word、excel、PPT，雖然說是特殊文件，其實也是實際工作中我們經(jīng)常會用到的文件類型。本文將為大家詳解Python讀取Word文件和文件內(nèi)容的方法，感興趣的可以了解一下

前言

前面幾個章節(jié)我們學習了對于普通文件的操作，比如說文件的創(chuàng)建、復制粘貼、裁剪粘貼、文件名的重命名、刪除等等。另外還學習了一些基本練習，如何查找文件、如何按照內(nèi)容查找文件等等。

在本章節(jié)及后續(xù)，將開始學習一些特殊文件的自動化相關(guān)操作。如 word、excel、PPT，雖然說是特殊文件，其實也是實際工作中我們經(jīng)常會用到的文件類型。

接下來我們就進入到 word 文件自動化操作的學習內(nèi)容。

該章節(jié)涉及的新模塊

python-docx

pdfkit

pydocx

利用 python 批量讀取文件

word利器之python-docx

python-docx 是用于創(chuàng)建可修改微軟 Word 的一個 python 庫，提供全套的 Word 操作，是最常用的 Word 工具。

使用前，先了解幾個概念：

Document：是一個 Word 文檔對象，不同于 VBA 中 Worksheet 的概念，Document 是獨立的，打開不同的 Word 文檔，就會有不同的 Document 對象，相互之間沒有影響
Paragraph：是段落，一個 Word 文檔由多個段落組成，當在文檔中輸入一個回車鍵，就會成為新的段落，輸入 shift + 回車，不會分段
Run 表示一個節(jié)段，每個段落由多個節(jié)段組成，一個段落中具有相同樣式的連續(xù)文本，組成一個節(jié)段，所以一個段落對象有個 Run 列表。

例如下圖的 word 文檔示意圖：

word 文檔結(jié)構(gòu)劃分如下：

python-docx 安裝

安裝：

pip install python-docx 如果安裝速度太慢的話，可以換一個國內(nèi)的源地址（如下）

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

導入：

import docx
from docx import …

python-docx 之 Document

導入包與模塊：

from docx import Document

使用方法：

Document(word文件地址)

返回值：

word文件對象

python-docx 之段落內(nèi)容讀取

實際上要想讀取一個 word 文檔，主要就是讀取它的段落以及它的表格。無論是段落還是表格，它的內(nèi)部都是字符串，我們的目的就是讀取這些字符串的內(nèi)容。

先看一下段落內(nèi)容的讀取方式：

來源：

document_obj.paragraphs 通過 document 對象的 paragraphs 函數(shù)返回一個段落的列表；如果 word 文件存在多個段落，就會有多個段落對象。

使用方法：

通過循環(huán)獲取每個段落對象，并調(diào)用 text

演示案例腳本如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調(diào)試路徑

doc = Document(path)

for p in doc.paragraphs:
    print(p.text)

運行結(jié)果如下：（PS：文本只是演示，本人非培訓機構(gòu)的?。?/p>

python-docx 之表格內(nèi)容讀取

接下來我們看一下如何讀取 word 文件中的表格內(nèi)容：

來源：

document_obj.tables 通過 document 對象的 paragraphs 函數(shù)返回一個表格的列表；里面是一個一個的表格的對象。

使用方法：

同樣通過循環(huán)，獲取行與列的內(nèi)容

返回值：

每個表格字段（字符串）

演示案例代碼如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調(diào)試路徑

doc = Document(path)

# for p in doc.paragraphs:
#     print(p.text)

for t in doc.tables:            # for 循環(huán)獲取表格對象
    for row in t.rows:          # 獲取每一行
        row_str = []
        for cell in row.cells:    # 獲取每一行單獨的小表格,然后將其內(nèi)容拼接起來;拼接完成之后再第二個for循環(huán)中打印出來
            row_str.append(cell.text)
        print(row_str)
        
# 也可以通過 "columns" 獲取表格中的列的內(nèi)容，可以自己嘗試一下

運行結(jié)果如下：