Python自動化辦公之Word文件內(nèi)容的讀取
前言
前面幾個章節(jié)我們學習了對于普通文件的操作,比如說文件的創(chuàng)建、復制粘貼、裁剪粘貼、文件名的重命名、刪除等等。另外還學習了一些基本練習,如何查找文件、如何按照內(nèi)容查找文件等等。
在本章節(jié)及后續(xù),將開始學習一些特殊文件的自動化相關(guān)操作。如 word、excel、PPT,雖然說是特殊文件,其實也是實際工作中我們經(jīng)常會用到的文件類型。
接下來我們就進入到 word 文件自動化操作的學習內(nèi)容。
該章節(jié)涉及的新模塊
python-docx
pdfkit
pydocx
利用 python 批量讀取文件
word利器之python-docx
python-docx 是用于創(chuàng)建可修改 微軟 Word 的一個 python 庫,提供全套的 Word 操作,是最常用的 Word 工具。
使用前,先了解幾個概念:
- Document:是一個 Word 文檔 對象,不同于 VBA 中 Worksheet 的概念,Document 是獨立的,打開不同的 Word 文檔,就會有不同的 Document 對象,相互之間沒有影響
- Paragraph:是段落,一個 Word 文檔由多個段落組成,當在文檔中輸入一個回車鍵,就會成為新的段落,輸入 shift + 回車,不會分段
- Run 表示一個節(jié)段,每個段落由多個 節(jié)段 組成,一個段落中具有相同樣式的連續(xù)文本,組成一個節(jié)段,所以一個 段落 對象有個 Run 列表。
例如下圖的 word 文檔示意圖:

word 文檔結(jié)構(gòu)劃分如下:

python-docx 安裝
安裝:
pip install python-docx 如果安裝速度太慢的話,可以換一個國內(nèi)的源地址(如下)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx
導入:
import docx
from docx import …
python-docx 之 Document
導入包與模塊:
from docx import Document
使用方法:
Document(word文件地址)
返回值:
word文件對象
python-docx 之段落內(nèi)容讀取
實際上要想讀取一個 word 文檔,主要就是讀取它的段落以及它的表格。無論是段落還是表格,它的內(nèi)部都是字符串,我們的目的就是讀取這些字符串的內(nèi)容。
先看一下段落內(nèi)容的讀取方式:
來源:
document_obj.paragraphs 通過 document 對象的 paragraphs 函數(shù)返回一個段落的列表;如果 word 文件存在多個段落,就會有多個段落對象。
使用方法:
通過循環(huán)獲取每個段落對象,并調(diào)用 text
演示案例腳本如下:
# coding:utf-8
import os
from docx import Document
path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為:", path) # 調(diào)試路徑
doc = Document(path)
for p in doc.paragraphs:
print(p.text)
運行結(jié)果如下:(PS:文本只是演示,本人非培訓機構(gòu)的?。?/p>


python-docx 之表格內(nèi)容讀取
接下來我們看一下如何讀取 word 文件中的表格內(nèi)容:
來源:
document_obj.tables 通過 document 對象的 paragraphs 函數(shù)返回一個表格的列表;里面是一個一個的表格的對象。
使用方法:
同樣通過循環(huán),獲取行與列的內(nèi)容
返回值:
每個表格字段(字符串)
演示案例代碼如下:
# coding:utf-8
import os
from docx import Document
path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為:", path) # 調(diào)試路徑
doc = Document(path)
# for p in doc.paragraphs:
# print(p.text)
for t in doc.tables: # for 循環(huán)獲取表格對象
for row in t.rows: # 獲取每一行
row_str = []
for cell in row.cells: # 獲取每一行單獨的小表格,然后將其內(nèi)容拼接起來;拼接完成之后再第二個for循環(huán)中打印出來
row_str.append(cell.text)
print(row_str)
# 也可以通過 "columns" 獲取表格中的列的內(nèi)容,可以自己嘗試一下
運行結(jié)果如下:

到此這篇關(guān)于Python自動化辦公之Word文件內(nèi)容的讀取的文章就介紹到這了,更多相關(guān)Python讀取Word內(nèi)容內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python numpy和list查詢其中某個數(shù)的個數(shù)及定位方法
今天小編就為大家分享一篇python numpy和list查詢其中某個數(shù)的個數(shù)及定位方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06
mac安裝pytorch及系統(tǒng)的numpy更新方法
今天小編就為大家分享一篇mac安裝pytorch及系統(tǒng)的numpy更新方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07
tensorflow: variable的值與variable.read_value()的值區(qū)別詳解
今天小編就為大家分享一篇tensorflow: variable的值與variable.read_value()的值區(qū)別詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07
Python Numpy運行報錯IndexError與形狀不匹配的問題解決辦法
在使用Numpy進行數(shù)據(jù)處理和科學計算時,IndexError和形狀不匹配(Shape Mismatch)是常見的錯誤類型,這些錯誤通常發(fā)生在數(shù)組索引操作、數(shù)組運算或數(shù)組重塑時,本文將通過一個具體的例子來詳細分析這些錯誤的原因和解決辦法,需要的朋友可以參考下2024-07-07

