使用maven實(shí)現(xiàn)有關(guān)Jsoup簡單爬蟲的步驟
一、Jsoup的簡介
jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)
二、我們可以利用Jsoup做什么
2.1從URL,文件或字符串中刮取并解析HTML查找和提取數(shù)據(jù),
2.2使用DOM遍歷或CSS選擇器操縱HTML元素,屬性和文本
2.3從而使我們輸出我們想要的整潔文本
三、利用Jsoup爬取某東示例

可以從圖中看到,成功爬取某東的女裝熱門銷量從高到低的標(biāo)題,從而可以分析到銷量高(或者是綜合排序)在前列的標(biāo)題名稱。從而可以剖析出熱門商品的命名規(guī)范。
四、Jsoup用法
4.1先創(chuàng)建maven工程,在maven工程上注入依賴

4.2注入依賴后需要導(dǎo)入依賴,否則在程序中使用Jsoup會全部報(bào)錯(cuò)。
4.3利用JSP的知識找出目標(biāo)元素

如在某東界面我們發(fā)現(xiàn), 控制目標(biāo)頁面的ID為"plist",則我們使用
getElementById("plist");方法去獲取到他的ID
接著獲取目標(biāo)標(biāo)題,可以由上圖分析得,標(biāo)題是由<em>標(biāo)簽所控制,因此我們需要用到
getElementsByTag("em");去捕捉到em的部分
最后循環(huán)輸出他的部分即可。

五、總結(jié)
Jsoup只能應(yīng)用于簡單的頁面捕捉,在實(shí)際開發(fā)中許多網(wǎng)站采用Ajax技術(shù)等使得模塊在動態(tài)變化抑或是有反爬蟲技術(shù),因此本技術(shù)有局限性。熟悉前端jsp技術(shù)的同學(xué)應(yīng)該會游刃有余。
最后附上所有代碼

以上就是使用maven實(shí)現(xiàn)有關(guān)Jsoup簡單爬蟲的步驟的詳細(xì)內(nèi)容,更多關(guān)于maven實(shí)現(xiàn)Jsoup爬蟲的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
java源碼解析之String類的compareTo(String otherString)方法
這篇文章主要給大家介紹了關(guān)于java源碼解析之String類的compareTo(String otherString)方法的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2018-09-09
Java報(bào)錯(cuò)net.dean.jraw.http.NetworkException異常的原因及解決方法
在開發(fā)涉及網(wǎng)絡(luò)通信的Java應(yīng)用程序時(shí),我們經(jīng)常需要處理各種網(wǎng)絡(luò)異常,net.dean.jraw.http.NetworkException是在使用jRAW庫時(shí)可能遇到的一個(gè)異常,本文將詳細(xì)探討NetworkException的成因,并提供多種解決方案,需要的朋友可以參考下2024-12-12
你應(yīng)該知道的這些Mybatis-Plus使用技巧(小結(jié))
這篇文章主要介紹了你應(yīng)該知道的這些Mybatis-Plus使用技巧(小結(jié)),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08
Springboot接入MyBatisPlus的實(shí)現(xiàn)
最近web端比較熱門的框架就是SpringBoot和Mybatis-Plus,這里簡單總結(jié)集成用法,具有一定的參考價(jià)值,感興趣的可以了解一下2023-09-09
詳解Spring Boot 使用Spring security 集成CAS
本篇文章主要介紹了詳解Spring Boot 使用Spring security 集成CAS,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-05-05
SpringBoot整合Jasypt實(shí)現(xiàn)配置加密的步驟詳解
Jasypt是一個(gè)Java庫,提供了一種簡單的加密解密方式,可用于保護(hù)敏感數(shù)據(jù),例如密碼、API密鑰和數(shù)據(jù)庫連接信息等,本文給大家介紹了SpringBoot整合Jasypt實(shí)現(xiàn)配置加密的詳細(xì)步驟,感興趣的同學(xué)可以參考一下2023-11-11

