C#使用Spire.PDF for .NET提取PDF文本的具體教程
在日常開(kāi)發(fā)中,經(jīng)常會(huì)遇到從 PDF 文件中提取文本的需求,例如:
- 從合同或發(fā)票中獲取關(guān)鍵信息;
- 將報(bào)告或數(shù)據(jù)表內(nèi)容導(dǎo)入數(shù)據(jù)庫(kù);
- 實(shí)現(xiàn)全文檢索功能。
Spire.PDF for .NET 提供了簡(jiǎn)單高效的 API,可以在 C# 項(xiàng)目中直接讀取 PDF 文本,無(wú)需安裝 Adobe Acrobat。
步驟 1:引入 Spire.PDF for .NET
如果使用 NuGet,可以在項(xiàng)目中安裝:
Install-Package Spire.PDF
或者在 Visual Studio 中通過(guò) NuGet 管理器搜索 Spire.PDF 并安裝。
步驟 2:加載 PDF 并提取文本
以下示例展示了如何讀取 PDF 文件的全部文本:
using Spire.Pdf;
using System;
class Program
{
static void Main()
{
// 創(chuàng)建 PdfDocument 對(duì)象
PdfDocument pdf = new PdfDocument();
// 加載 PDF 文件
pdf.LoadFromFile("Sample.pdf");
// 遍歷所有頁(yè)面提取文本
for (int i = 0; i < pdf.Pages.Count; i++)
{
string text = pdf.Pages[i].ExtractText();
Console.WriteLine($"--- 第 {i + 1} 頁(yè)內(nèi)容 ---");
Console.WriteLine(text);
}
}
}
運(yùn)行后,控制臺(tái)會(huì)輸出 PDF 中每一頁(yè)的文本內(nèi)容。
步驟 3:提取指定頁(yè)或區(qū)域文本(可選)
如果只想提取某一頁(yè)或某個(gè)區(qū)域的文本,可以使用如下方法:
using Spire.Pdf;
using Spire.Pdf.General.Find;
class Program
{
static void Main()
{
PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile("Sample.pdf");
// 提取第一頁(yè)文本
string firstPageText = pdf.Pages[0].ExtractText();
Console.WriteLine("第一頁(yè)內(nèi)容:");
Console.WriteLine(firstPageText);
// 按矩形區(qū)域提取文本
var rect = new System.Drawing.RectangleF(0, 0, 300, 500);
string areaText = pdf.Pages[0].ExtractText(rect);
Console.WriteLine("指定區(qū)域文本:");
Console.WriteLine(areaText);
}
}
這樣可以更精準(zhǔn)地獲取頁(yè)面上特定位置的文本內(nèi)容,例如表格或標(biāo)題。
總結(jié)
本文介紹了如何在 C# 項(xiàng)目中使用 Spire.PDF for .NET 提取 PDF 文本,包括:
- 加載 PDF 文件 并訪問(wèn)頁(yè)面;
- 遍歷頁(yè)面提取文本;
- 按頁(yè)或區(qū)域提取文本,滿足定制化需求。
通過(guò)這些方法,開(kāi)發(fā)者可以快速實(shí)現(xiàn) PDF 文本解析和數(shù)據(jù)提取功能,用于報(bào)表處理、數(shù)據(jù)分析或全文檢索場(chǎng)景。
到此這篇關(guān)于C#使用Spire.PDF for .NET提取PDF文本的具體教程的文章就介紹到這了,更多相關(guān)C#提取PDF文本內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
算法練習(xí)之從String.indexOf的模擬實(shí)現(xiàn)開(kāi)始
這篇文章主要介紹了算法練習(xí)從String.indexOf的模擬實(shí)現(xiàn)開(kāi)始,需要的朋友可以參考下2014-12-12
C#實(shí)現(xiàn)winform中RichTextBox在指定光標(biāo)位置插入圖片的方法
這篇文章主要介紹了C#實(shí)現(xiàn)winform中RichTextBox在指定光標(biāo)位置插入圖片的方法,涉及RichTextBox控件及剪切板的相關(guān)操作技巧,非常簡(jiǎn)單實(shí)用,需要的朋友可以參考下2016-06-06

