Python實(shí)現(xiàn)Word表格自動(dòng)化轉(zhuǎn)為Excel

更新時(shí)間：2026年02月06日 08:20:38 作者：用戶835629078051

在日常工作中,我們經(jīng)常需要處理各種格式的數(shù)據(jù),本文將深入探討如何利用Python準(zhǔn)確地將Word文檔中的表格數(shù)據(jù)提取并轉(zhuǎn)換為可編輯的Excel表格,感興趣的小伙伴可以了解下

在日常工作中，我們經(jīng)常需要處理各種格式的數(shù)據(jù)。Word文檔以其靈活的排版能力，常用于報(bào)告和文檔撰寫(xiě)，但當(dāng)這些文檔中包含大量表格數(shù)據(jù)時(shí)，將其用于進(jìn)一步的數(shù)據(jù)分析或統(tǒng)計(jì)時(shí)，手動(dòng)復(fù)制粘貼到Excel無(wú)疑是一項(xiàng)耗時(shí)且易出錯(cuò)的任務(wù)。想象一下，面對(duì)幾十甚至上百個(gè)Word文檔中的表格，這種重復(fù)性工作效率低下且令人沮喪。

幸運(yùn)的是，Python作為一種強(qiáng)大的自動(dòng)化工具，能夠完美解決這一痛點(diǎn)。本文將深入探討如何利用Python，結(jié)合 Spire.Doc for Python 和 Spire.XLS for Python 這兩個(gè)庫(kù)，高效、準(zhǔn)確地將Word文檔中的表格數(shù)據(jù)提取并轉(zhuǎn)換為可編輯的Excel表格。通過(guò)自動(dòng)化這一過(guò)程，您將能夠顯著提升工作效率，減少人為錯(cuò)誤，并專注于更有價(jià)值的數(shù)據(jù)洞察。

環(huán)境準(zhǔn)備與庫(kù)安裝

在開(kāi)始之前，我們需要確保Python環(huán)境已正確配置，并安裝所需的庫(kù)。本文假設(shè)您已經(jīng)安裝了Python 3.x 版本。

首先，打開(kāi)您的命令行工具（如CMD、PowerShell或Terminal），然后使用pip命令安裝Spire.Doc for Python和Spire.XLS for Python。這兩個(gè)庫(kù)是本次任務(wù)的核心，Spire.Doc for Python負(fù)責(zé)讀取和解析Word文檔內(nèi)容，特別是識(shí)別和提取表格數(shù)據(jù)；而Spire.XLS for Python則用于創(chuàng)建、寫(xiě)入和保存Excel文件。

pip install Spire.Doc
pip install Spire.XLS

安裝完成后，您就可以在Python腳本中導(dǎo)入和使用它們了。

Word表格讀取與數(shù)據(jù)提取

數(shù)據(jù)提取是整個(gè)轉(zhuǎn)換過(guò)程的關(guān)鍵一步。我們將使用Spire.Doc for Python來(lái)加載Word文檔，并遍歷文檔中的所有表格，逐一提取其內(nèi)容。

以下是一個(gè)示例Word文檔：

我們將編寫(xiě)代碼來(lái)識(shí)別并提取這些數(shù)據(jù)。

from spire.doc import *
from spire.doc.common import *


def extract_tables_from_word(word_file_path):
    """
    從Word文檔中提取所有表格數(shù)據(jù)。
    返回一個(gè)列表，其中每個(gè)元素代表一個(gè)表格，表格內(nèi)部是行的列表，行內(nèi)部是單元格內(nèi)容的列表。
    """
    document = Document()
    document.LoadFromFile(word_file_path)

    all_tables_data = []
    # 遍歷文檔中的所有節(jié)
    for sec_index in range(document.Sections.Count):
        section = document.Sections.get_Item(sec_index)
        # 遍歷節(jié)中的所有表格
        for table_index in range(section.Tables.Count):
            table = section.Tables.get_Item(table_index)
            current_table_data = []
            # 遍歷表格中的所有行
            for row_index in range(table.Rows.Count):
                table_row = table.Rows.get_Item(row_index)
                current_row_data = []
                # 遍歷行中的所有單元格
                for cell_index in range(table_row.Cells.Count):
                    table_cell = table_row.Cells.get_Item(cell_index)
                    # 提取單元格文本，并保持單元格內(nèi)原有段落結(jié)構(gòu)
                    paras = [table_cell.Paragraphs.get_Item(i).Text.rstrip('\r\n')
                             for i in range(table_cell.Paragraphs.Count)
                             if table_cell.Paragraphs.get_Item(i).Text.strip()]
                    current_cell_data = "\n".join(paras)
                    current_row_data.append(current_cell_data)
                current_table_data.append(current_row_data)
            all_tables_data.append(current_table_data)

    document.Close()
    return all_tables_data


# 假設(shè)您的Word文檔名為 'input.docx' 并且在當(dāng)前目錄下
word_file = "input.docx"
extracted_data = extract_tables_from_word(word_file)

# 打印提取的數(shù)據(jù)以供驗(yàn)證
for i, table_data in enumerate(extracted_data):
    print(f"--- Table {i + 1} Data ---")
    for row in table_data:
        print(row)

控制臺(tái)輸出結(jié)果：

代碼解析：

Document() 實(shí)例用于加載Word文檔。
document.LoadFromFile() 方法加載指定路徑的Word文檔。
我們通過(guò) document.Sections 迭代文檔中的所有節(jié)，再通過(guò) section.Tables 迭代每個(gè)節(jié)中的所有表格。
對(duì)于每個(gè)表格，我們進(jìn)一步迭代 table.Rows 獲取行，然后迭代 row.Cells 獲取單元格。
cell.Text.strip() 用于獲取單元格的純文本內(nèi)容，并移除可能存在的額外空白字符。
所有提取的數(shù)據(jù)都存儲(chǔ)在一個(gè)嵌套列表中，all_tables_data 是一個(gè)包含所有表格數(shù)據(jù)的列表，每個(gè)表格數(shù)據(jù)又是一個(gè)包含行數(shù)據(jù)的列表，行數(shù)據(jù)再包含單元格數(shù)據(jù)的列表。

數(shù)據(jù)寫(xiě)入Excel與文件保存

提取到數(shù)據(jù)后，下一步就是將其寫(xiě)入Excel文件。我們將使用Spire.XLS for Python來(lái)創(chuàng)建新的Excel工作簿，并將提取的數(shù)據(jù)逐一寫(xiě)入工作表。

from spire.xls import *
from spire.xls.common import *


def write_data_to_excel(extracted_data, excel_file_path):
    """
    將提取的表格數(shù)據(jù)寫(xiě)入Excel文件。
    每個(gè)Word表格將寫(xiě)入Excel的一個(gè)新工作表。
    """
    workbook = Workbook()
    # 清楚默認(rèn)工作表
    workbook.Worksheets.Clear()

    # 如果沒(méi)有提取到數(shù)據(jù)，則不創(chuàng)建Excel文件
    if not extracted_data:
        print("沒(méi)有從Word文檔中提取到任何表格數(shù)據(jù)。")
        return

    # 遍歷所有提取的表格數(shù)據(jù)
    for i, table_data in enumerate(extracted_data):
        # 為每個(gè)表格創(chuàng)建一個(gè)新的工作表
        sheet = workbook.Worksheets.Add(f"Table_{i + 1}")

        # 將表格數(shù)據(jù)寫(xiě)入工作表
        for r_idx, row_data in enumerate(table_data):
            for c_idx, cell_value in enumerate(row_data):
                # Excel的行和列索引從1開(kāi)始
                sheet.Range[r_idx + 1, c_idx + 1].Value = cell_value

        # （可選）應(yīng)用基本表格格式
        # 如自動(dòng)對(duì)齊列寬
        sheet.AllocatedRange.AutoFitColumns()

    # 保存Excel文件
    workbook.SaveToFile(excel_file_path, ExcelVersion.Version2016)
    workbook.Dispose()
    print(f"數(shù)據(jù)已成功寫(xiě)入到 {excel_file_path}")

# 調(diào)用函數(shù)將數(shù)據(jù)寫(xiě)入Excel
excel_file = "output.xlsx"
write_data_to_excel(extracted_data, excel_file)

寫(xiě)入效果：

代碼解析：

Workbook() 實(shí)例用于創(chuàng)建一個(gè)新的Excel工作簿。
我們遍歷 extracted_data 中的每個(gè)Word表格。
對(duì)于第一個(gè)表格，我們使用 workbook.Worksheets[0] （默認(rèn)的“Sheet1”），并為其重命名；對(duì)于后續(xù)表格，則使用 workbook.Worksheets.Add() 創(chuàng)建新的工作表。
然后，我們遍歷每個(gè)表格的行和單元格數(shù)據(jù)，使用 sheet.Range[r_idx + 1, c_idx + 1].Value = cell_value 將數(shù)據(jù)寫(xiě)入Excel單元格。注意，Excel的行和列索引是從1開(kāi)始的，所以需要 + 1。
workbook.SaveToFile() 方法將工作簿保存為指定的Excel文件，ExcelVersion.Version2016 指定了保存的Excel版本。

將上述兩個(gè)部分的Python代碼片段整合在一起，您就擁有了一個(gè)完整的Word表格到Excel轉(zhuǎn)換的自動(dòng)化腳本。

總結(jié)與展望

通過(guò)本文的詳細(xì)教程，我們學(xué)習(xí)了如何利用Python結(jié)合 Spire.Doc for Python 和 Spire.XLS for Python 庫(kù)，實(shí)現(xiàn)Word文檔中表格數(shù)據(jù)到Excel表格的高效自動(dòng)化轉(zhuǎn)換。這一過(guò)程不僅省去了繁瑣的手動(dòng)復(fù)制粘貼，顯著提升了數(shù)據(jù)處理效率，還最大程度地減少了人為錯(cuò)誤的可能性。

這種自動(dòng)化能力在多個(gè)領(lǐng)域都具有廣泛的應(yīng)用前景，例如：

報(bào)告數(shù)據(jù)整合：從多個(gè)Word報(bào)告中提取關(guān)鍵數(shù)據(jù)，匯總到Excel進(jìn)行分析。
企業(yè)數(shù)據(jù)遷移：將舊的Word文檔中的結(jié)構(gòu)化數(shù)據(jù)批量導(dǎo)入到新的數(shù)據(jù)庫(kù)或系統(tǒng)。
日常辦公自動(dòng)化：簡(jiǎn)化重復(fù)性數(shù)據(jù)錄入和格式轉(zhuǎn)換工作，讓您有更多時(shí)間專注于核心業(yè)務(wù)。

到此這篇關(guān)于Python實(shí)現(xiàn)Word表格自動(dòng)化轉(zhuǎn)為Excel的文章就介紹到這了,更多相關(guān)Python Word表格轉(zhuǎn)Excel內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: