C#使用Spire.PDF從PDF中提取文本的實戰(zhàn)指南

更新時間：2025年09月05日 08:28:17 作者：缺點內(nèi)向

在處理PDF文檔時，經(jīng)常需要從中提取文本內(nèi)容用于數(shù)據(jù)分析或搜索入庫。使用Spire.PDF for .NET，只需幾行C#代碼即可精準(zhǔn)提取PDF中的文本，支持保留格式和批量處理，輕松解決文本提取需求。

引言

為什么選擇 Spire.PDF 進(jìn)行文本提?。?/h2>
Spire.PDF 是由 e-iceblue 公司開發(fā)的一款專業(yè)的 PDF 組件，專為 .NET 平臺設(shè)計，支持在 C#、VB.NET 等語言中創(chuàng)建、讀取、編輯、轉(zhuǎn)換和打印 PDF 文檔。在文本提取方面，Spire.PDF 展現(xiàn)出諸多獨特優(yōu)勢：

廣泛的兼容性： Spire.PDF 支持各種 PDF 版本，包括加密和受保護(hù)的 PDF 文檔，確保了在不同場景下的通用性。
靈活的提取模式：它不僅支持提取整頁文本，還能按指定區(qū)域、按行、甚至按特定格式（如文本元素的位置、大小、字體、顏色）進(jìn)行精細(xì)化提取，滿足多樣化的需求。
出色的復(fù)雜布局處理能力：面對表格、多列布局、圖片環(huán)繞文本等復(fù)雜頁面結(jié)構(gòu)，Spire.PDF 能夠更好地識別和還原文本的邏輯順序，減少亂碼和布局錯亂的發(fā)生。
多語言支持：對于包含中文、日文、韓文等多種語言的 PDF 文檔，Spire.PDF 也能提供良好的支持，確保字符編碼的正確性。
易于使用與高性能： API 設(shè)計直觀簡潔，學(xué)習(xí)成本低。同時，其底層優(yōu)化確保了在處理大型 PDF 文件時依然能保持高效的性能。
（對比其他庫）：相較于一些開源庫如 iTextSharp，Spire.PDF 在商業(yè)支持、API 易用性以及對復(fù)雜 PDF 的處理能力上往往更具優(yōu)勢；與 PDFium 等底層庫相比，Spire.PDF 提供了更高級別的抽象，減少了開發(fā)者的工作量。

Spire.PDF 文本提取實戰(zhàn)：基礎(chǔ)用法

現(xiàn)在，讓我們通過具體的 C# 代碼示例，深入了解如何使用 Spire.PDF 進(jìn)行文本提取。

2.1 環(huán)境準(zhǔn)備與庫安裝

首先，你需要在你的 .NET 項目中安裝 Spire.PDF 庫。最簡單的方式是通過 NuGet 包管理器：

Install-Package Spire.PDF

或者在 Visual Studio 的 NuGet 包管理器中搜索 "Spire.PDF" 并安裝。

2.2 提取整頁文本

這是最常見的文本提取場景，即提取 PDF 文檔中每一頁的所有文本內(nèi)容。

using Spire.Pdf;
using System.Text; // 引入 StringBuilder 命名空間

class Program
{
    static void Main(string[] args)
    {
        // 1. 加載 PDF 文檔
        PdfDocument doc = new PdfDocument();
        doc.Load("Sample.pdf"); // 替換為你的 PDF 文件路徑

        StringBuilder fullText = new StringBuilder();

        // 2. 遍歷文檔中的每一頁
        foreach (PdfPageBase page in doc.Pages)
        {
            // 3. 提取當(dāng)前頁的所有文本
            string textOnPage = page.ExtractText();
            fullText.AppendLine(textOnPage);

            // 可選：打印每頁文本
            // Console.WriteLine($"--- Page {page.PageIndex + 1} ---");
            // Console.WriteLine(textOnPage);
        }

        // 4. 將所有文本保存到文件或進(jìn)行其他處理
        System.IO.File.WriteAllText("ExtractedFullText.txt", fullText.ToString());
        Console.WriteLine("文本已成功提取并保存到 ExtractedFullText.txt");

        // 5. 釋放資源
        doc.Close();
    }
}

代碼解析：

PdfDocument doc = new PdfDocument(); doc.Load("Sample.pdf"); 用于加載目標(biāo) PDF 文檔。
foreach (PdfPageBase page in doc.Pages) 遍歷文檔中的所有頁面。
page.ExtractText() 是核心方法，用于提取當(dāng)前頁面的所有文本內(nèi)容。
StringBuilder 用于高效地拼接所有頁面的文本。
doc.Close() 釋放文檔資源，這是一個良好的編程習(xí)慣。

2.3 提取指定區(qū)域文本

有時我們只需要 PDF 頁面中某個特定區(qū)域的文本，例如一個表格或者某個數(shù)據(jù)塊。Spire.PDF 允許我們通過定義一個矩形區(qū)域來精確提取文本。

using Spire.Pdf;
using Spire.Pdf.Graphics; // 引入 RectangleF 命名空間
using Spire.Pdf.Texts; // 引入 PdfTextExtractor 命名空間
using System.Drawing; // 引入 Color 命名空間

class Program
{
    static void Main(string[] args)
    {
        // 1. 加載 PDF 文檔
        PdfDocument doc = new PdfDocument();
        doc.Load("Sample.pdf"); 

        // 2. 獲取第一頁（或其他指定頁）
        PdfPageBase page = doc.Pages[0];

        // 3. 定義要提取文本的矩形區(qū)域
        // RectangleF(x, y, width, height)
        // x, y 是矩形左上角的坐標(biāo)，width, height 是矩形的寬度和高度。
        // PDF 坐標(biāo)系的原點通常在左下角或左上角，具體取決于庫的實現(xiàn)。
        // Spire.PDF 默認(rèn)是左上角為 (0,0)，Y軸向下。
        RectangleF extractArea = new RectangleF(80, 180, 500, 200); // 示例坐標(biāo)和尺寸

        // 4. 創(chuàng)建文本提取選項
        PdfTextExtractOptions options = new PdfTextExtractOptions();
        options.ExtractArea = extractArea;

        // 5. 使用 PdfTextExtractor 提取指定區(qū)域文本
        PdfTextExtractor extractor = new PdfTextExtractor(page);
        string extractedText = extractor.ExtractText(options);

        Console.WriteLine($"從指定區(qū)域提取的文本：\n{extractedText}");

        // 6. 釋放資源
        doc.Close();
    }
}

代碼解析：

RectangleF extractArea = new RectangleF(80, 180, 500, 200); 定義了一個浮點型矩形，用于指定提取區(qū)域。x 和 y 是相對于頁面左上角的偏移量，width 和 height 是區(qū)域的尺寸。
PdfTextExtractOptions options = new PdfTextExtractOptions(); options.ExtractArea = extractArea; 將定義的區(qū)域作為提取選項。
PdfTextExtractor extractor = new PdfTextExtractor(page); 創(chuàng)建一個頁面文本提取器實例。
extractor.ExtractText(options); 使用帶有區(qū)域選項的提取器來獲取文本。

2.4 提取特定格式文本

Spire.PDF 還提供了更高級的文本提取能力，例如提取被高亮（highlight）的文本。這在處理批注和審閱過的文檔時非常有用。

using Spire.Pdf;
using Spire.Pdf.Annotations; // 引入 PdfTextMarkupAnnotationWidget 命名空間
using Spire.Pdf.Graphics;
using Spire.Pdf.Texts;
using System.Drawing;
using System.Text;

class Program
{
    static void Main(string[] args)
    {
        PdfDocument doc = new PdfDocument();
        doc.Load("SampleWithHighlight.pdf"); // 替換為包含高亮文本的 PDF 文件

        PdfPageBase page = doc.Pages[0]; // 獲取第一頁
        StringBuilder stringBuilder = new StringBuilder();
        PdfTextExtractor pdfTextExtractor = new PdfTextExtractor(page);

        // 遍歷頁面上的所有批注
        for (int i = 0; i < page.Annotations.Count; i++)
        {
            if (page.Annotations[i] is PdfTextMarkupAnnotationWidget textMarkupAnnotation)
            {
                // 如果是文本標(biāo)記批注（如高亮、刪除線等）
                // 獲取高亮區(qū)域的邊界
                PdfTextExtractOptions pdfTextExtractOptions = new PdfTextExtractOptions();
                pdfTextExtractOptions.ExtractArea = textMarkupAnnotation.Bounds;
                
                // 提取高亮區(qū)域的文本
                string highlightedText = pdfTextExtractor.ExtractText(pdfTextExtractOptions);
                stringBuilder.AppendLine(highlightedText);

                // 可選：獲取高亮顏色
                Color color = textMarkupAnnotation.TextMarkupColor;
                Console.WriteLine($"檢測到高亮文本: '{highlightedText}' (顏色: {color})");
            }
        }
        
        System.IO.File.WriteAllText("ExtractedHighlightedText.txt", stringBuilder.ToString());
        Console.WriteLine("高亮文本已成功提取并保存到 ExtractedHighlightedText.txt");

        doc.Close();
    }
}

代碼解析：

page.Annotations 屬性用于訪問頁面上的所有批注。
通過 is PdfTextMarkupAnnotationWidget 判斷批注類型是否為文本標(biāo)記批注。
textMarkupAnnotation.Bounds 獲取高亮批注的矩形區(qū)域，然后利用 PdfTextExtractOptions.ExtractArea 來提取該區(qū)域的文本。
textMarkupAnnotation.TextMarkupColor 可以獲取高亮批顏色，方便進(jìn)行進(jìn)一步處理或分析。

進(jìn)階技巧與常見問題解決

在實際應(yīng)用中，我們可能會遇到一些更復(fù)雜的情況，以下是一些進(jìn)階技巧和常見問題解決方案。

3.1 處理亂碼與編碼問題

文本提取后出現(xiàn)亂碼通常是由于編碼不匹配造成的。Spire.PDF 在內(nèi)部對多種編碼有良好支持，但如果遇到特殊情況，可以嘗試以下方法：

確保字體嵌入： 如果 PDF 中的字體沒有嵌入，或者使用了非常規(guī)字體，提取時可能會丟失信息或出現(xiàn)亂碼。Spire.PDF 會盡力處理，但最佳實踐是確保 PDF 生成時嵌入了所有字體。
指定編碼（如果 API 支持）： 某些 PDF 庫允許在提取時指定文本編碼，但 Spire.PDF 通常會自動處理。如果仍有問題，可以檢查 PDF 本身的編碼信息。
后處理： 對于少量難以解決的亂碼，可能需要進(jìn)行后處理，例如使用字符映射或替換算法。

提示： Spire.PDF 在處理多語言和復(fù)雜編碼方面表現(xiàn)優(yōu)秀，通常無需手動干預(yù)。如果出現(xiàn)亂碼，首先確認(rèn) PDF 文件本身是否正常，或嘗試更新 Spire.PDF 到最新版本。

3.2 保持文本布局與結(jié)構(gòu)

僅僅提取文本有時是不夠的，我們還需要了解文本在頁面上的位置、大小、字體等布局信息，以便更好地還原原始文檔結(jié)構(gòu)。

Spire.PDF 提供了 ExtractText(bool) 重載方法或 PdfTextExtractor 類，可以獲取更詳細(xì)的文本元素信息，而不僅僅是純文本字符串。例如，通過 PdfTextExtractor 我們可以獲取 TextLine 和 TextWord 對象，它們包含了文本的坐標(biāo)、字體、大小等屬性。

using Spire.Pdf;
using Spire.Pdf.Texts;
using System.Drawing; // 用于 RectangleF

class Program
{
    static void Main(string[] args)
    {
        PdfDocument doc = new PdfDocument();
        doc.Load("Sample.pdf");

        PdfPageBase page = doc.Pages[0];
        PdfTextExtractor extractor = new PdfTextExtractor(page);

        // 獲取頁面中的所有文本行
        TextLine[] textLines = extractor.ExtractTextLines();

        foreach (TextLine line in textLines)
        {
            Console.WriteLine($"行文本: {line.Text} (位置: {line.Bounds})");
            foreach (TextWord word in line.Words)
            {
                Console.WriteLine($"  單詞: {word.Text} (位置: {word.Bounds}, 字體: {word.FontName}, 大小: {word.FontSize})");
            }
        }

        doc.Close();
    }
}

代碼解析：

extractor.ExtractTextLines() 返回一個 TextLine 數(shù)組，每個 TextLine 代表頁面上的一行文本。
TextLine 包含 Text 屬性（行文本內(nèi)容）和 Bounds 屬性（行在頁面上的矩形區(qū)域）。
line.Words 進(jìn)一步提供了 TextWord 數(shù)組，每個 TextWord 包含單詞文本、位置、字體名稱和大小等詳細(xì)信息。

利用這些信息，你可以根據(jù)需求重新構(gòu)建文本的布局，例如生成 HTML、XML 或其他結(jié)構(gòu)化數(shù)據(jù)。

3.3 性能優(yōu)化建議

對于處理大量或大型 PDF 文件，性能是一個關(guān)鍵考量。

分批處理： 如果 PDF 文件非常大，可以考慮將其分割成小塊或按頁分批處理，避免一次性加載過多內(nèi)容導(dǎo)致內(nèi)存溢出。
及時釋放資源： 每次處理完一個 PdfDocument 實例后，務(wù)必調(diào)用 doc.Close() 方法釋放其占用的內(nèi)存和文件句柄。
避免不必要的重復(fù)操作： 如果某個頁面需要多次提取不同區(qū)域的文本，可以先創(chuàng)建一次 PdfTextExtractor 實例，然后多次調(diào)用其 ExtractText 方法。
硬件優(yōu)化： 在高性能服務(wù)器上運行，利用多核 CPU 和充足的內(nèi)存，也能顯著提升處理速度。

到此這篇關(guān)于C#使用Spire.PDF從PDF中提取文本的實戰(zhàn)指南的文章就介紹到這了,更多相關(guān)C# Spire.PDF提取PDF文本內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

C#使用Spire.PDF從PDF中提取文本的實戰(zhàn)指南

目錄

引言

Spire.PDF 文本提取實戰(zhàn)：基礎(chǔ)用法

2.1 環(huán)境準(zhǔn)備與庫安裝

2.2 提取整頁文本

2.3 提取指定區(qū)域文本

2.4 提取特定格式文本

進(jìn)階技巧與常見問題解決

3.1 處理亂碼與編碼問題

3.2 保持文本布局與結(jié)構(gòu)

3.3 性能優(yōu)化建議

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

C#使用Spire.PDF從PDF中提取文本的實戰(zhàn)指南

目錄

引言

Spire.PDF 文本提取實戰(zhàn)：基礎(chǔ)用法

2.1 環(huán)境準(zhǔn)備與庫安裝

2.2 提取整頁文本

2.3 提取指定區(qū)域文本

2.4 提取特定格式文本

進(jìn)階技巧與常見問題解決

3.1 處理亂碼與編碼問題

3.2 保持文本布局與結(jié)構(gòu)

3.3 性能優(yōu)化建議

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕