C# 爬蟲(chóng)簡(jiǎn)單教程
1、使用第三方類庫(kù) HtmlAgilityPack
官方網(wǎng)址:https://html-agility-pack.net/?z=codeplex、
// From File 從文件獲取html信息 var doc = new HtmlDocument(); doc.Load(filePath); // From String 從字符串獲取html信息 var doc = new HtmlDocument(); doc.LoadHtml(html); // From Web 從網(wǎng)址獲取html信息 var url = "http://html-agility-pack.net/"; var web = new HtmlWeb(); var doc = web.Load(url);
1.1、這里介紹一下最后一種用法
var web = new HtmlWeb(); var doc = web.Load(url);
在 web 中我們還可以設(shè)置cookie、headers等信息,來(lái)處理一些特定的網(wǎng)站需求,比如需要登陸等。
1.2 用法解釋
網(wǎng)頁(yè)在你查看網(wǎng)頁(yè)源代碼之后只是一段字符串,而爬蟲(chóng)所做的就是在這堆字符串中,查詢到我們想要的信息,挑選出來(lái)。
以往的篩選方法:正則 (太麻煩了,寫(xiě)起來(lái)有些頭疼)
HtmlAgilityPack 支持通過(guò)XPath來(lái)解析我們需要的信息。
1.2.1 在哪里找XPath?
網(wǎng)頁(yè)右鍵檢查

通過(guò)XPath就可以準(zhǔn)確獲取你想要元素的全部信息。
1.2.2 獲取選中Html元素的信息?
獲取選中元素
var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")
獲取元素信息
htmlnode.InnerText;
htmlnode.InnerHtml;
//根據(jù)屬性取值
htmlnode?.GetAttributeValue("src", "未找到")
2、自己封裝的類庫(kù)
/// <summary>
/// 下載HTML幫助類
/// </summary>
public static class LoadHtmlHelper
{
/// <summary>
/// 從Url地址下載頁(yè)面
/// </summary>
/// <param name="url"></param>
/// <returns></returns>
public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
{
HtmlWeb web = new HtmlWeb();
return await
web?.LoadFromWebAsync(url);
}
/// <summary>
/// 獲取單個(gè)節(jié)點(diǎn)擴(kuò)展方法
/// </summary>
/// <param name="htmlDocument">文檔對(duì)象</param>
/// <param name="xPath">xPath路徑</param>
/// <returns></returns>
public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
{
return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
}
/// <summary>
/// 獲取多個(gè)節(jié)點(diǎn)擴(kuò)展方法
/// </summary>
/// <param name="htmlDocument">文檔對(duì)象</param>
/// <param name="xPath">xPath路徑</param>
/// <returns></returns>
public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
{
return htmlDocument?.DocumentNode?.SelectNodes(xPath);
}
/// <summary>
/// 獲取多個(gè)節(jié)點(diǎn)擴(kuò)展方法
/// </summary>
/// <param name="htmlDocument">文檔對(duì)象</param>
/// <param name="xPath">xPath路徑</param>
/// <returns></returns>
public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
{
return htmlNode?.SelectNodes(xPath);
}
/// <summary>
/// 獲取單個(gè)節(jié)點(diǎn)擴(kuò)展方法
/// </summary>
/// <param name="htmlDocument">文檔對(duì)象</param>
/// <param name="xPath">xPath路徑</param>
/// <returns></returns>
public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
{
return htmlNode?.SelectSingleNode(xPath);
}
/// <summary>
/// 下載圖片
/// </summary>
/// <param name="url">地址</param>
/// <param name="filpath">文件路徑</param>
/// <returns></returns>
public async static ValueTask<bool> DownloadImg(string url ,string filpath)
{
HttpClient httpClient = new HttpClient();
try
{
var bytes = await httpClient.GetByteArrayAsync(url);
using (FileStream fs = File.Create(filpath))
{
fs.Write(bytes, 0, bytes.Length);
}
return File.Exists(filpath);
}
catch (Exception ex)
{
throw new Exception("下載圖片異常", ex);
}
}
}
3、自己寫(xiě)的爬蟲(chóng)案例,爬取的網(wǎng)站https://www.meitu131.com/
數(shù)據(jù)存儲(chǔ)層沒(méi)有實(shí)現(xiàn),懶得寫(xiě)了,靠你們嘍,我是數(shù)據(jù)暫時(shí)存在了文件中
GitHub地址:https://github.com/ZhangQueque/quewaner.Crawler.git

以上就是C# 爬蟲(chóng)簡(jiǎn)單教程的詳細(xì)內(nèi)容,更多關(guān)于c# 爬蟲(chóng)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
- 用C#做網(wǎng)絡(luò)爬蟲(chóng)的步驟教學(xué)
- c#爬蟲(chóng)爬取京東的商品信息
- 利用C#實(shí)現(xiàn)最基本的小說(shuō)爬蟲(chóng)示例代碼
- C#簡(jiǎn)單爬蟲(chóng)案例分享
- C#網(wǎng)絡(luò)爬蟲(chóng)代碼分享 C#簡(jiǎn)單的爬取工具
- 利用C#實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)
- 基于C#實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng) C#抓取網(wǎng)頁(yè)Html源碼
- 基于C#實(shí)現(xiàn)網(wǎng)頁(yè)爬蟲(chóng)
- c#實(shí)現(xiàn)爬蟲(chóng)程序
相關(guān)文章
C#正則過(guò)濾HTML標(biāo)簽并保留指定標(biāo)簽的方法
這篇文章主要介紹了C#正則過(guò)濾HTML標(biāo)簽并保留指定標(biāo)簽的方法,涉及C#針對(duì)頁(yè)面HTML元素正則匹配與替換相關(guān)操作技巧,需要的朋友可以參考下2017-06-06
C#如何使用PaddleOCR進(jìn)行圖片文字識(shí)別功能
PaddlePaddle(飛槳)是百度開(kāi)發(fā)的深度學(xué)習(xí)平臺(tái),旨在為開(kāi)發(fā)者提供全面、靈活的工具集,用于構(gòu)建、訓(xùn)練和部署各種深度學(xué)習(xí)模型,它具有開(kāi)放源代碼、高度靈活性、可擴(kuò)展性和分布式訓(xùn)練等特點(diǎn),這篇文章主要介紹了C#使用PaddleOCR進(jìn)行圖片文字識(shí)別,需要的朋友可以參考下2024-04-04
C#連接藍(lán)牙設(shè)備的實(shí)現(xiàn)示例
本文主要介紹了C#連接藍(lán)牙設(shè)備的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-01-01
C#由當(dāng)前日期計(jì)算相應(yīng)的周一和周日的實(shí)例代碼
這篇文章介紹了C#由當(dāng)前日期計(jì)算相應(yīng)的周一和周日的實(shí)例代碼,有需要的朋友可以參考一下2013-09-09

