Python實現(xiàn)精準提取?PDF中的文本,表格與圖片

更新時間：2025年06月13日 11:21:23 作者：E-iceblue

在實際的系統(tǒng)開發(fā)中,處理?PDF?文件不僅限于讀取整頁文本,還有提取文檔中的表格數(shù)據(jù),圖片或特定區(qū)域的內(nèi)容,下面我們來看看如何使用Python實現(xiàn)精準提取PDF

在實際的系統(tǒng)開發(fā)中，處理 PDF 文件不僅限于讀取整頁文本，還有提取文檔中的表格數(shù)據(jù)、圖片或特定區(qū)域的內(nèi)容。這些任務(wù)看似簡單，實則對精度與處理能力提出了更高要求。本文將以 Python 語言為例，結(jié)合 Spire.PDF 控件，帶你實戰(zhàn)演練如何精準提取 PDF 中的表格、圖片以及指定區(qū)域的文本內(nèi)容，助力你高效完成數(shù)據(jù)分析、內(nèi)容重用等任務(wù)。

安裝 Python 庫

本文將使用 Spire.PDF for Python 來演示怎樣完成 PDF 文檔中的元素提取。作為一個獨立的第三方組件，Spire.PDF 不依賴微軟 Office，還可以兼容大部分國產(chǎn)系統(tǒng)，是你的 PDF 自動化好幫手。

通過 pip 命令安裝它：

pip install Spire.PDF

或使用：

pip install spire.pdf.free

安裝免費版，免費版存在一些篇幅限制，但對于處理小型任務(wù)來說足夠了。

提取 PDF 文本內(nèi)容：獲取整頁文本與指定區(qū)域內(nèi)容

通常情況下，提取 PDF 文檔文本的需求主要有兩種：

一種是提取整頁或整份文檔中的全部文本，如合同全文提取、批量歸檔場景。
另一種是提取特定區(qū)域內(nèi)的文本，如從表單、票據(jù)中提取某一欄位內(nèi)容。

在本章節(jié)，我們將使用 Spire.PDF 來分別完成這兩個任務(wù)。

獲取頁面上的所有文本內(nèi)容

文本是 PDF 文檔中最常見的內(nèi)容形式。無論是提取整份合同內(nèi)容，還是其他需要批量處理的文檔，掌握 PDF 文本提取技巧都至關(guān)重要。本節(jié)將向你展示如何快速通過 Python 從 PDF 文檔中提取頁面上的所有文本內(nèi)容。

完整代碼示例 - 獲取第一頁所有文本：

from spire.pdf import *
from spire.pdf.common import *


# 創(chuàng)建 PdfDocument 對象
pdf = PdfDocument()

# 加載 PDF 文檔
pdf.LoadFromFile("/AI繪畫的利與弊.pdf")

# 獲取 PDF 第一頁，遍歷文檔所有頁便可提取文檔所有文本內(nèi)容
page = pdf.Pages.get_Item(0)

# 創(chuàng)建 PdfTextExtractor 對象
textExtractor = PdfTextExtractor(page)

# 創(chuàng)建 PdfTextExtractOptions 對象
extractOptions = PdfTextExtractOptions()

# 從頁面中提取文本
text = textExtractor.ExtractText(extractOptions)

# 寫入到 txt 文件中
extractedText = open("/提取第一頁文本.txt", "w", encoding = "utf-8")
extractedText.write(text)

# 釋放對象
extractedText.close()
pdf.Close()

效果預(yù)覽：

（Python 提取 PDF 頁面上的文本）

主要步驟解析：

創(chuàng)建新的 PdfDocument 對象，然后加載 PDF 文檔。
獲取文檔的第一頁或遍歷所有頁面以便提取整個 PDF 文檔的文本。
創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對象，用以提取文本。
通過 PdfTextExtractor.ExtractText() 方法從所選頁面中提取文本。

獲取 PDF 特定區(qū)域的文本

有時候，我們不需要整頁的內(nèi)容，只想提取 PDF 里某個特定位置的文字，比如發(fā)票上的金額、表格里的某一欄，或者文件角落的簽名。只需要用 Spire.PDF 設(shè)置一下坐標，就能輕松搞定區(qū)域文本提取。

完整代碼示例 - 獲取第一頁一個矩形區(qū)域內(nèi)的文本：

from spire.pdf import *
from spire.pdf.common import *


# 創(chuàng)建PdfDocument 對象
pdf = PdfDocument()

# 加載PDF文檔
pdf.LoadFromFile("E:/Administrator/Python1/input/AI繪畫的利與弊-圖片版.pdf")

# 獲取PDF第一頁，遍歷文檔所有頁便可提取文檔所有文本內(nèi)容
page = pdf.Pages.get_Item(0)

#創(chuàng)建PdfTextExtractor 對象
textExtractor = PdfTextExtractor(page)

#創(chuàng)建PdfTextExtractOptions 對象
extractOptions = PdfTextExtractOptions()

# 設(shè)置從矩形區(qū)域提取文本的選項
extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0)

#從頁面中提取文本
text = textExtractor.ExtractText(extractOptions)

# 寫入到 txt 文件中
extractedText = open("E:/Administrator/Python1/output/提取特定區(qū)域文本.txt", "w", encoding = "utf-8")
extractedText.write(text)

# 釋放對象
extractedText.close()
pdf.Close()

效果預(yù)覽：

（Python 提取 PDF 中特定區(qū)域的文本）

主要步驟解析：

創(chuàng)建新的 PdfDocument 對象，然后加載一個 PDF 文檔。
獲取文檔的第一頁。
創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對象，用以提取文本。
使用 PdfTextExtractOptions.ExtractArea 屬性設(shè)置頁面區(qū)域范圍。
通過 PdfTextExtractor.ExtractText() 方法從所指定的頁面區(qū)域中提取文本。

注意事項：extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0) 中的四個參數(shù)依次代表矩形區(qū)域的 X 坐標、Y 坐標、寬度和高度。通過調(diào)整這些數(shù)值，你可以靈活控制需要提取文本的區(qū)域位置和大小，確保僅獲取你想要的內(nèi)容。

提取 PDF 中的表格并導(dǎo)出為 CSV

在 PDF 文檔中，表格通常以非結(jié)構(gòu)化的形式存在，直接提取和復(fù)用并不容易，尤其是遇到無邊框、合并單元格或跨頁表格的時候。本節(jié)我們將介紹如何使用 Spire.PDF 和 Spire.XLS 準確識別 PDF 中的表格內(nèi)容，并將其導(dǎo)出為結(jié)構(gòu)化格式，如 Excel 或 CSV，幫助你實現(xiàn)高效的數(shù)據(jù)處理與復(fù)用。

完整代碼示例 - 提取 PDF 表格并保存為 CSV：

from spire.pdf import *
from spire.pdf.common import *
from spire.xls import *


# 創(chuàng)建 PdfDocument 對象
doc = PdfDocument()

# 加載 PDF 文檔
doc.LoadFromFile("/Population.pdf")

# 創(chuàng)建 Workbook 對象
workbook = Workbook()
# 清除默認工作表
workbook.Worksheets.Clear()

# 創(chuàng)建 PdfTableExtractor 對象
extractor = PdfTableExtractor(doc)

sheetNumber = 1

# 遍歷PDF文件中的頁面
for pageIndex in range(doc.Pages.Count):
    # 從當前頁面提取表格
    tableList = extractor.ExtractTable(pageIndex)

    # 遍歷表格
    if tableList is not None and len(tableList) > 0:
        for table in tableList:
            # 為當前表格添加一個工作表
            sheet = workbook.Worksheets.Add(f"Sheet{sheetNumber}")

            # 獲取表格的行數(shù)和列數(shù)
            row = table.GetRowCount()
            column = table.GetColumnCount()

            # 遍歷表格的行和列
            for i in range(row):
                for j in range(column):
                    # 獲取當前單元格中的文本
                    text = table.GetText(i, j)

                    # 將文本寫入工作表的指定單元格
                    sheet.Range[i + 1, j + 1].Value = text

            sheetNumber += 1

# 將工作簿保存為 Excel 文件
workbook.SaveToFile("/提取表格.csv", FileFormat.CSV)
workbook.Dispose()
doc.Close()

效果預(yù)覽：

（Python 提取 PDF 中的表格并保存為 CSV）

主要步驟解析：

創(chuàng)建 PdfDocument 實例并加載 PDF 文檔。
創(chuàng)建 Workbook 實例。
遍歷 PDF 中的所有頁面。
使用 PdfTableExtractor.ExtractTable() 方法提取頁面中的表格。
遍歷提取的表格，并使用 Workbook.Worksheets.Add() 方法向工作簿中添加工作表。
使用 PdfTable.GetText() 方法獲取 PDF 表格單元格中的文本。
利用 Worksheet.Range[].Value 屬性將文本寫入工作表的特定單元格。
使用 Workbook.SaveToFile() 方法將結(jié)果工作簿保存為 CSV 文件。

注意事項：要將表格保存為 CSV 或 Excel 文件，需要用到 Spire.XLS。你可以通過：pip install spire.xls 將其安裝到設(shè)備上。

快速提取 PDF 文檔中的圖片

在 PDF 文檔中，除了文本和表格，圖片也是常見的內(nèi)容形式，尤其是在宣傳材料、報告或掃描文檔中更為常見。這些圖片可能是位圖，也可能是矢量圖，提取方式各不相同。本節(jié)將帶你了解如何使用 Spire.PDF 快速識別并提取頁面中的嵌入圖片，并將其保存為常用格式（如 PNG、JPEG），方便后續(xù)的歸檔、分析或內(nèi)容重用。

完整代碼示例 - 提取 PDF 文檔中的所有圖片：

from spire.pdf.common import *
from spire.pdf import *

# 創(chuàng)建 PdfDocument 對象
doc = PdfDocument()
# 加載 PDF 文檔
doc.LoadFromFile("/AI繪畫的利與弊.pdf")

# 創(chuàng)建 PdfImageHelper 對象
image_helper = PdfImageHelper()

image_count = 1
# 遍歷文檔中的頁面
for i in range(doc.Pages.Count):
    # 獲取當前頁面中的圖片信息
    images_info = image_helper.GetImagesInfo(doc.Pages[i])

    # 獲取圖片并將其保存為圖片文件
    for j in range(len(images_info)):
        image_info = images_info[j]
        output_file = f"/New folder/image{image_count}.png"
        image_info.Image.Save(output_file)
        image_count += 1

doc.Close()

效果預(yù)覽：

（Python 提取 PDF 中的所有圖片）

主要步驟解析：

創(chuàng)建 PdfDocument 實例并加載一個 PDF 文檔。
創(chuàng)建 PdfImageHelper 對象。
遍歷所有頁面。
通過 PdfImageHelper.GetImagesInfo(page: PdfPageBase) 方法獲取頁面中的圖片信息。
遍歷獲取結(jié)果，使用 PdfImageInfo.Image.Save() 方法將每張圖片保存為圖片文件。

總結(jié)

今天的文章中，我們展示了如何在 Python 中精準提取 PDF 文檔中的文本、表格和圖片。無論是批量處理合同、公文，還是提取數(shù)據(jù)用于系統(tǒng)集成，Spire 控件都能為開發(fā)者提供穩(wěn)定、高效的支持。隨著文檔數(shù)字化和自動化處理需求不斷增長，掌握這類工具的使用將為日常開發(fā)工作帶來顯著效率提升。

到此這篇關(guān)于Python實現(xiàn)精準提取 PDF中的文本,表格與圖片的文章就介紹到這了,更多相關(guān)Python提取 PDF內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: