C#使用Spire.Doc將HTML轉(zhuǎn)換為文本的代碼實(shí)現(xiàn)
引言
在 .NET 開(kāi)發(fā)中,將 HTML 轉(zhuǎn)換為純文本是一項(xiàng)常見(jiàn)任務(wù),無(wú)論是從網(wǎng)頁(yè)中提取內(nèi)容、處理 HTML 郵件,還是生成輕量級(jí)的文本報(bào)告。然而,HTML 豐富的格式、標(biāo)簽和結(jié)構(gòu)元素,往往會(huì)讓需要干凈、無(wú)格式文本的工作流程變得復(fù)雜。因此,使用 C# 進(jìn)行 HTML 到文本的轉(zhuǎn)換就顯得尤為重要。
Spire.Doc for .NET 簡(jiǎn)化了這一過(guò)程——它是一款功能強(qiáng)大的文檔處理庫(kù),原生支持加載 HTML 文件或字符串,并將其轉(zhuǎn)換為干凈的純文本。本文將介紹如何使用該庫(kù)在 C# 中將 HTML 轉(zhuǎn)換為純文本,并詳細(xì)講解兩種核心場(chǎng)景:轉(zhuǎn)換 HTML 字符串(內(nèi)存中的內(nèi)容)和轉(zhuǎn)換 HTML 文件(磁盤(pán)中的內(nèi)容)。
為什么選擇使用 Spire.Doc 進(jìn)行 HTML 到文本的轉(zhuǎn)換?
Spire.Doc 是一款用于 .NET 的文檔處理庫(kù),在執(zhí)行 HTML 到文本轉(zhuǎn)換方面具有以下顯著優(yōu)勢(shì):
- 代碼簡(jiǎn)潔:只需幾行代碼即可處理復(fù)雜的 HTML 內(nèi)容。
- 結(jié)構(gòu)保留:在輸出文本中保留邏輯格式,如換行符和列表縮進(jìn)。
- 特殊字符支持:自動(dòng)將 HTML 實(shí)體轉(zhuǎn)換為對(duì)應(yīng)的純文本字符。
- 輕量高效:無(wú)繁重依賴(lài),適用于桌面端和 Web 應(yīng)用程序。
安裝 Spire.Doc
Spire.Doc 可以通過(guò) NuGet 獲取,這是管理依賴(lài)項(xiàng)的最簡(jiǎn)便方式:
- 在 Visual Studio 中,右鍵單擊你的項(xiàng)目,選擇 “管理 NuGet 程序包”。
- 搜索 Spire.Doc,并安裝最新的穩(wěn)定版本。
- 或者,你也可以使用 程序包管理器控制臺(tái),運(yùn)行以下命令:
Install-Package Spire.Doc
安裝完成后,你就可以開(kāi)始編寫(xiě) C# 代碼,從 HTML 中提取文本內(nèi)容了。
在 C# 中將 HTML 字符串轉(zhuǎn)換為文本
本示例將一個(gè) HTML 字符串加載為一個(gè) Document 對(duì)象,然后使用 SaveToFile() 方法將其保存為純文本文件。
using Spire.Doc;
using Spire.Doc.Documents;
namespace HtmlToTextSaver
{
class Program
{
static void Main(string[] args)
{
// 定義 HTML 內(nèi)容
string htmlContent = @"
<html>
<body>
<h1>示例 HTML 內(nèi)容</h1>
<p>這是一個(gè)包含 <strong>加粗</strong> 和 <em>斜體</em> 的段落.</p>
<p>另一行包含一個(gè) <a >鏈接</a>.</p>
<ul>
<li>列表項(xiàng) 1</li>
<li>列表項(xiàng) 2 (包含 <em>斜體</em> 文本)</li>
</ul>
<p>特殊字符: © & ®</p>
</body>
</html>";
// 創(chuàng)建 Document 對(duì)象
Document doc = new Document();
// 添加一個(gè)節(jié)以容納內(nèi)容
Section section = doc.AddSection();
// 添加一個(gè)段落
Paragraph paragraph = section.AddParagraph();
// 將 HTML 渲染到段落中
paragraph.AppendHTML(htmlContent);
// 另存為純文本文件
doc.SaveToFile("HtmlStringtoText.txt", FileFormat.Txt);
}
}
}在 C# 中將 HTML 文件轉(zhuǎn)換為文本
本示例演示如何直接加載一個(gè) HTML 文件并將其轉(zhuǎn)換為純文本。該方法非常適合批量處理或處理現(xiàn)有的 HTML 文檔(例如已下載的網(wǎng)頁(yè)或本地模板)。
using Spire.Doc;
using Spire.Doc.Documents;
namespace HtmlToText
{
class Program
{
static void Main()
{
// 創(chuàng)建 Document 對(duì)象
Document doc = new Document();
// 加載HTML文件
doc.LoadFromFile("sample.html", FileFormat.Html, XHTMLValidationType.None);
// 將HTML另存為純文本文件
doc.SaveToFile("HTMLtoText.txt", FileFormat.Txt);
doc.Dispose();
}
}
}結(jié)論
使用 Spire.Doc 庫(kù)在 C# 中將 HTML 轉(zhuǎn)換為文本非常簡(jiǎn)單。無(wú)論你處理的是 HTML 字符串還是 HTML 文件,Spire.Doc 都能通過(guò)自動(dòng)解析 HTML、保留結(jié)構(gòu)格式并完成文本轉(zhuǎn)換,極大地簡(jiǎn)化這一過(guò)程。通過(guò)本文提供的示例,你可以輕松地將 HTML 到文本的轉(zhuǎn)換功能集成到你的 C# 應(yīng)用程序中。
到此這篇關(guān)于C#使用Spire.Doc將HTML轉(zhuǎn)換為文本的代碼實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)C# Spire.Doc將HTML轉(zhuǎn)文本內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
C#修改IIS站點(diǎn)framework版本號(hào)的方法
這篇文章主要介紹了C#修改IIS站點(diǎn)framework版本號(hào)的方法,涉及C#調(diào)用使用ASP.NET IIS注冊(cè)工具Aspnet_regiis.exe進(jìn)行IIS站點(diǎn)framework版本號(hào)修改的方法,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-10-10
C#采用FileSystemWatcher實(shí)現(xiàn)監(jiān)視磁盤(pán)文件變更的方法
這篇文章主要介紹了C#采用FileSystemWatcher實(shí)現(xiàn)監(jiān)視磁盤(pán)文件變更的方法,詳細(xì)分析了FileSystemWatcher的用法,并以此為基礎(chǔ)實(shí)現(xiàn)監(jiān)視磁盤(pán)文件變更,是非常實(shí)用的技巧,具有一定的借鑒價(jià)值,需要的朋友可以參考下2014-11-11
C#實(shí)現(xiàn)仿QQ抽屜式窗體的設(shè)計(jì)方法
QQ軟件對(duì)于絕大多數(shù)的人來(lái)說(shuō)再熟悉不過(guò)了,它以使用方便、界面美觀及功能完善而著稱(chēng),本文給大家介紹了C#實(shí)現(xiàn)仿QQ抽屜式窗體的設(shè)計(jì)方法,主要通過(guò)使用API函數(shù)WindowFromPoint和GetParent實(shí)現(xiàn)仿QQ的抽屜式窗體,需要的朋友可以參考下2024-04-04
C#實(shí)現(xiàn)Socket數(shù)據(jù)接收的三種經(jīng)典方式
本文將深入探討 C# 中實(shí)現(xiàn) Socket 數(shù)據(jù)接收的三種經(jīng)典方式,結(jié)合真實(shí)案例分析常見(jiàn)問(wèn)題,并提供優(yōu)化后的完整代碼示例,希望對(duì)大家有一定的幫助2025-08-08
UGUI ScrollRect實(shí)現(xiàn)帶按鈕翻頁(yè)支持拖拽
這篇文章主要為大家詳細(xì)介紹了UGUI ScrollRect實(shí)現(xiàn)帶按鈕翻頁(yè)支持拖拽,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-05-05
winform天氣預(yù)報(bào)小工具(附源碼下載)
主要原理就是利用網(wǎng)上免費(fèi)的webservice獲取天氣數(shù)據(jù),需要的朋友可以參考下2012-03-03

