通過C#和IronOcr實現(xiàn)圖片文字自動識別(OCR)和提取
前言
嗨,大家好!
你了解圖片文字識別技術(shù)(OCR)嗎?
所謂的圖片文字識別,簡單地說,就是識別并提取圖片中的文字,英文簡稱為 OCR。
近年來,這項技術(shù)得到了廣泛應(yīng)用,成為了提升工作效率的利器,想像一下,你需要將某張圖片上的文字錄入信息庫,看著圖片一個字一個字的敲打錄入,那有該多辛苦!
如果有一個圖片文字識別提取工具,點擊一下,就能將圖片上的文字直接提取出來,這該有多方便!
今天,我們就來聊聊如何使用 C# 實現(xiàn) OCR 功能,并分享一個詳細(xì)的例子。
話不多說,我們直接開始吧!
Step By Step 詳細(xì)步驟
1. 創(chuàng)建項目
創(chuàng)建一個 WinForms 應(yīng)用桌面程序項目,命名為 “WinFormsOCRSample”
2. 安裝 Nuget 包
在項目中添加以下 NuGet 包
<PackageReference Include="IronOcr" Version="2023.5.35" /> <PackageReference Include="IronOcr.Languages.Chinese" Version="2020.11.2" />
注意:如果不裝 IronOcr.Languages.Chinese,識別中文時會變成亂碼,所以一定要記得裝這個包!
3. 設(shè)計窗體
接下來,在主窗體上放置兩個文本框和一個按鈕。
第一個文本框用于輸入圖片路徑,第二個文本框用于顯示識別結(jié)果,按鈕則用于觸發(fā) OCR 操作。
如下圖:

4. 編寫文字自動識別代碼
雙擊窗體上按鈕,自動生成按鈕單擊事件并跳轉(zhuǎn)到代碼界面,編寫如下代碼,留意其中的注釋:
using IronOcr;
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
namespace WinFormsOCRSample
{
public partial class frmImgOCR : Form
{
public frmImgOCR()
{
InitializeComponent();
}
private void btnOcr_Click(object sender, EventArgs e)
{
// 初始化 OCR 引擎
var ocr = new IronTesseract();
// 配置不讀取二維碼
ocr.Configuration.ReadBarCodes = false;
// 設(shè)置語言為簡體中文
ocr.Language = OcrLanguage.ChineseSimplifiedBest;
using (var ocrInput = new OcrInput())
{
// 加載圖片
ocrInput.AddImage(txtFilePath.Text.Trim());
// 提高識別質(zhì)量的設(shè)置(可選)
ocrInput.Deskew(); // 僅當(dāng)圖片傾斜時使用
// ocrInput.DeNoise(); // 僅當(dāng)圖片包含數(shù)字噪聲時使用
// 執(zhí)行 OCR 并獲取結(jié)果
var ocrResult = ocr.Read(ocrInput);
txtResult.Text = ocrResult.Text; // 顯示識別結(jié)果
}
}
}
}
5. 運行并測試
準(zhǔn)備一個有文字的圖片,如下圖:

運行程序,輸入圖片路徑,點擊 “文字識別” 按鈕,很快地就自動識別出圖片上的文字,并輸出結(jié)果,如下圖:

總結(jié)
搞定!是不是比想象中簡單?只需要幾行代碼,就讓 C# 輕松實現(xiàn)圖片文字的自動識別,而且,準(zhǔn)確率還不錯!
事實上,除了圖片上文字,PDF 也可以輕松識別,你可以在 IronOcr 的官網(wǎng)上解鎖更多姿勢!
看到這里,你是不是也心動了,趕快也嘗試一下吧!
以上就是通過C#和IronOcr實現(xiàn)圖片文字自動識別(OCR)和提取的詳細(xì)內(nèi)容,更多關(guān)于C# IronOcr圖片文字自動識別和提取的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
C#借助Free Spire.Doc for .NET實現(xiàn)將HTML轉(zhuǎn)換為RTF富文本格式
在辦公自動化、文檔導(dǎo)出、報表生成等場景中,HTML 與RTF格式的轉(zhuǎn)換是常見需求,本文將詳細(xì)講解如何使用該免費庫通過 C# 代碼實現(xiàn) HTML 到 RTF 的轉(zhuǎn)換,感興趣的小伙伴可以了解下2025-11-11
c# DevExpress gridcontrol日期行的顯示格式設(shè)置
這篇文章主要介紹了c# DevExpress gridcontrol日期行的顯示格式設(shè)置,需要的朋友可以參考下2017-02-02

