使用Python提取PDF文件中內(nèi)容的代碼示例和使用技巧

更新時(shí)間：2025年07月10日 10:26:01 作者：行云流水劍

在文檔自動化處理、數(shù)據(jù)提取和信息分析等任務(wù)中,從 PDF 文件中提取文本是一項(xiàng)常見需求,PDF 文件通常分為兩種類型：基于文本的 PDF 和包含掃描圖像的 PDF,本文將介紹如何使用 Python 分別提取這兩種類型的 PDF 內(nèi)容,需要的朋友可以參考下

一、提取基于文本的 PDF 內(nèi)容

1. 使用 PyPDF2 提取純文本

PyPDF2 是一個(gè)輕量級但功能強(qiáng)大的庫，適合用于讀取和提取標(biāo)準(zhǔn)文本型 PDF 中的內(nèi)容。

安裝

pip install PyPDF2

示例代碼

import PyPDF2

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
        return text

# 使用示例
pdf_path = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

注意：對于格式復(fù)雜或字體嵌入的 PDF，某些頁面可能無法正確提取文本。

2. 使用 pdfplumber 提取表格和布局復(fù)雜的文本

如果你需要提取含有表格、列布局或精確坐標(biāo)信息的 PDF，pdfplumber 是更合適的選擇。

安裝

pip install pdfplumber

示例代碼

import pdfplumber

def extract_text_from_pdf(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        text = ""
        for page in pdf.pages:
            text += page.extract_text()
        return text

# 使用示例
pdf_path = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

特點(diǎn)：支持表格識別、文字坐標(biāo)定位等功能。

二、提取掃描圖像型 PDF 內(nèi)容（OCR）

對于由掃描圖片組成的 PDF 文件，必須借助 光學(xué)字符識別（OCR）技術(shù) 來提取其中的文字。

1. 安裝依賴項(xiàng)

你需要安裝 Tesseract OCR 引擎以及對應(yīng)的 Python 封裝庫。

Windows：

下載并安裝 Tesseract OCR
添加 Tesseract 到系統(tǒng)環(huán)境變量（例如路徑為 C:\Program Files\Tesseract-OCR\tesseract.exe）
安裝 Python 庫：

pip install pytesseract pillow pdf2image

安裝 Poppler（用于將 PDF 轉(zhuǎn)換為圖像）：
- 可以從 GitHub - poppler-windows 下載并解壓，同樣添加到系統(tǒng) PATH。

Linux / macOS：

sudo apt install tesseract-ocr libpoppler-cpp-dev  # Ubuntu/Debian
brew install tesseract poppler                    # macOS (Homebrew)
pip install pytesseract pillow pdf2image

2. 示例代碼：結(jié)合 pdf2image + pytesseract 提取掃描 PDF 內(nèi)容

from pdf2image import convert_from_path
import pytesseract
from PIL import Image

def extract_text_from_scanned_pdf(pdf_path):
    # 將 PDF 轉(zhuǎn)換為圖像列表
    images = convert_from_path(pdf_path)

    extracted_text = ""
    for image in images:
        # 對每張圖片執(zhí)行 OCR
        text = pytesseract.image_to_string(image)
        extracted_text += text + "\n"

    return extracted_text

# 使用示例
pdf_path = 'scanned_example.pdf'
text = extract_text_from_scanned_pdf(pdf_path)
print(text)

說明：該方法會逐頁將 PDF 轉(zhuǎn)換為圖像，再通過 OCR 提取文字，適用于高質(zhì)量掃描件。

三、總結(jié)與建議

PDF 類型	推薦庫	特點(diǎn)
純文本型 PDF	PyPDF2 或 pdfplumber	快速、高效，適合標(biāo)準(zhǔn) PDF 文檔
掃描圖像型 PDF	pdf2image + pytesseract	支持 OCR，適合圖像型 PDF，但速度較慢

建議：

優(yōu)先判斷 PDF 類型：可以嘗試用 PyPDF2 提取看看是否有返回內(nèi)容，若為空則可能是掃描圖像。
提高 OCR 準(zhǔn)確率：可先對圖像進(jìn)行預(yù)處理（如灰度化、二值化），再傳給 pytesseract。
多語言支持：Tesseract 支持多種語言包，可通過 -l 參數(shù)指定語言，如 pytesseract.image_to_string(img, lang='chi_sim') 提取中文。

四、擴(kuò)展功能推薦

功能	工具	描述
表格識別	camelot 或 tabula-py	專門用于提取 PDF 中表格數(shù)據(jù)
PDF 加密破解	pikepdf	可用于打開加密 PDF 文件（需密碼）
PDF 合并與拆分	PyPDF2 / pypdf	拆分、合并、旋轉(zhuǎn) PDF 頁面
PDF 注釋提取	pdfminer.six	提供底層解析能力，適合高級用途

結(jié)語

無論是處理普通的文本型 PDF 還是掃描圖像型 PDF，Python 都提供了豐富的第三方庫來幫助我們實(shí)現(xiàn)高效的文本提取。掌握這些工具不僅能提升辦公效率，還能為數(shù)據(jù)分析、文檔管理、信息自動化等場景打下堅(jiān)實(shí)基礎(chǔ)。

以上就是使用Python提取PDF文件中內(nèi)容的代碼示例和使用技巧的詳細(xì)內(nèi)容，更多關(guān)于Python提取PDF文件內(nèi)容的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

使用Python提取PDF文件中內(nèi)容的代碼示例和使用技巧

目錄

一、提取基于文本的 PDF 內(nèi)容

1. 使用 PyPDF2 提取純文本

安裝

示例代碼

2. 使用 pdfplumber 提取表格和布局復(fù)雜的文本

安裝

示例代碼

二、提取掃描圖像型 PDF 內(nèi)容（OCR）

1. 安裝依賴項(xiàng)

Windows：

Linux / macOS：

2. 示例代碼：結(jié)合 pdf2image + pytesseract 提取掃描 PDF 內(nèi)容

三、總結(jié)與建議

建議：

四、擴(kuò)展功能推薦

結(jié)語

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

使用Python提取PDF文件中內(nèi)容的代碼示例和使用技巧

目錄

一、提取基于文本的 PDF 內(nèi)容

1. 使用 PyPDF2 提取純文本

安裝

示例代碼

2. 使用 pdfplumber 提取表格和布局復(fù)雜的文本

安裝

示例代碼

二、提取掃描圖像型 PDF 內(nèi)容（OCR）

1. 安裝依賴項(xiàng)

Windows：

Linux / macOS：

2. 示例代碼：結(jié)合 pdf2image + pytesseract 提取掃描 PDF 內(nèi)容

三、總結(jié)與建議

建議：

四、擴(kuò)展功能推薦

結(jié)語

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

一、提取基于文本的 PDF 內(nèi)容

三、總結(jié)與建議

四、擴(kuò)展功能推薦