C# 提取PDF中的表格詳情
1、簡(jiǎn)單介紹
本文介紹在C#程序中(附VB.NET代碼)提取PDF中的表格的方法,調(diào)用Spire.PDF for .NET提供的提取表格的 類(lèi) 以及 方法 等來(lái)獲取表格單元格中的文本內(nèi)容;代碼內(nèi)容中涉及到的主要類(lèi)及方法歸納如下表,供參考:
|
類(lèi)型 |
描述 |
|
PdfDocument Class |
Represents a pdf document model. |
|
PdfDocument.LoadFromFile(string filename) Method |
Loads a PDF document. |
|
PdfTableExtractor Class |
Represents the PDF table extractor. |
|
PdfTable Class |
Defines a PDF table. |
|
PdfTableExtractor. ExtractTable(int pageIndex) Method |
Extracts table from page. |
|
PdfTable.GetText(int rowIndex,int columnIndex) Method |
Gets Text in cell. |
|
File.WriteAllText() Method |
Saves extracted text in table to a .txt file. |
2、環(huán)境配置
- Visual Studio 2017
- .net framework 4.6.1
- PDF測(cè)試文檔
- 庫(kù):Spire.PDF for .NET 7.10.4
引用dll文件的2種方法:
方法1 :通過(guò) NuGet 安裝。
【步驟】
鼠標(biāo)右鍵點(diǎn)擊“引用”,“管理NuGet程序包”,

點(diǎn)擊“瀏覽”,在搜索框中輸入,點(diǎn)擊“安裝”,

或者使用PM控制臺(tái)安裝:
PM>Install-Package Spire.PDF -Version 7.10.4
方法2 :手動(dòng)添加引用。
【步驟】
鼠標(biāo)右鍵點(diǎn)擊“引用”,“添加引用”,

點(diǎn)擊“瀏覽”,“瀏覽”,將本地路徑下的dll文件(需提前 下載 到本地,并解壓)添加到引用列表


點(diǎn)擊OK,完成引用:

3、代碼示例
C#
using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;
namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//加載PDF文檔
PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile("sample.pdf");
StringBuilder builder = new StringBuilder();
//抽取表格
PdfTableExtractor extractor = new PdfTableExtractor(pdf);
PdfTable[] tableLists = null;
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
tableLists = extractor.ExtractTable(pageIndex);
if (tableLists != null && tableLists.Length > 0)
{
foreach (PdfTable table in tableLists)
{
int row = table.GetRowCount();
int column = table.GetColumnCount();
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
string text = table.GetText(i, j);
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格內(nèi)容到txt文檔
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}
}
VB.NET
Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text
Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'加載PDF文檔
Dim pdf As New PdfDocument()
pdf.LoadFromFile("sample.pdf")
Dim builder As New StringBuilder()
'抽取表格
Dim extractor As New PdfTableExtractor(pdf)
Dim tableLists As PdfTable() = Nothing
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
tableLists = extractor.ExtractTable(pageIndex)
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
For Each table As PdfTable In tableLists
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()
For i As Integer = 0 To row - 1
For j As Integer = 0 To column - 1
Dim text As String = table.GetText(i, j)
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next
'保存提取的表格內(nèi)容到txt文檔
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace
表格內(nèi)容提取結(jié)果:

其他注意事項(xiàng):
- 代碼中的PDF文件以及生成的.txt文件路徑為
F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf和F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路徑也可以自定義為其他路徑。 - 注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。
到此這篇關(guān)于C# 提取PDF中的表格詳情的文章就介紹到這了,更多相關(guān)C# 提取PDF中的表格內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
跳一跳自動(dòng)跳躍C#代碼實(shí)現(xiàn)
這篇文章主要為大家詳細(xì)介紹了跳一跳自動(dòng)跳躍C#代碼實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-01-01
C#實(shí)現(xiàn)排列組合算法完整實(shí)例
這篇文章主要介紹了C#實(shí)現(xiàn)排列組合算法的完整實(shí)例,文中實(shí)例主要展示了排列循環(huán)方法和排列堆棧方法,需要的朋友可以參考下2014-09-09
C#編程中常見(jiàn)數(shù)據(jù)結(jié)構(gòu)的比較(Unity3D游戲開(kāi)發(fā))
在本篇內(nèi)容里我們給大家整理了關(guān)于Unity3D游戲開(kāi)發(fā)中C#編程中常見(jiàn)數(shù)據(jù)結(jié)構(gòu)的比較相關(guān)知識(shí)點(diǎn)內(nèi)容,需要的朋友們參考下。2019-05-05
C#實(shí)現(xiàn)Word轉(zhuǎn)PDF的方法總結(jié)
這篇文章主要為大家詳細(xì)介紹了C#中實(shí)現(xiàn)Word轉(zhuǎn)PDF的常用方法,文中的示例代碼講解詳細(xì),具有一定的學(xué)習(xí)價(jià)值,有需要的小伙伴可以參考下2023-10-10
淺談C#中HttpWebRequest與HttpWebResponse的使用方法
本篇文章主要介紹了淺談C#中HttpWebRequest與HttpWebResponse的使用方法,具有一定的參考價(jià)值,有興趣的可以了解一下。2017-01-01

