java通過Jsoup爬取網(wǎng)頁過程詳解
這篇文章主要介紹了java通過Jsoup爬取網(wǎng)頁過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
一,導入依賴
<!--java爬蟲-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.3</version>
</dependency>
<!--httpclient依賴-->
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
</dependency>
二,編寫demo類
注意不要導錯包了,是org.jsoup.nodes下面的
package com.taotao.entity;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
* Author: TaoTao 2019/9/26
*/
public class intefaceTest {
public static void main(String[] args) throws IOException {
CloseableHttpClient httpClient = HttpClients.createDefault();//創(chuàng)建httpClient
HttpGet httpGet = new HttpGet("http://www.cnblogs.com/");//創(chuàng)建httpget實例
CloseableHttpResponse response = httpClient.execute(httpGet);//執(zhí)行g(shù)et請求
HttpEntity entity = response.getEntity();//獲取返回實體
String content = EntityUtils.toString(entity,"utf-8");//網(wǎng)頁內(nèi)容
response.close();//關(guān)閉流和釋放系統(tǒng)資源
Jsoup.parse(content);
Document doc = Jsoup.parse(content);//解析網(wǎng)頁得到文檔對象
Elements elements = doc.getElementsByTag("title");//獲取tag是title的所有dom文檔
Element element = elements.get(0);//獲取第一個元素
String title = element.text(); //.html是返回html
System.out.println("網(wǎng)頁標題:"+title);
Element element1 = doc.getElementById("site_nav_top");//獲取id=site_nav_top標簽
String str = element1.text();
System.out.println("str:"+str);
}
}
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
SpringBoot項目實戰(zhàn)之加載和讀取資源文件
在項目的開發(fā)中,我們知道的是SpringBoot框架大大減少了我們的配置文件,但是還是留下了一個application.properties文件讓我們可以進行一些配置,下面這篇文章主要給大家介紹了關(guān)于SpringBoot項目實戰(zhàn)之加載和讀取資源文件的相關(guān)資料,需要的朋友可以參考下2021-10-10
java中基本數(shù)據(jù)類型與Object的關(guān)系說明
這篇文章主要介紹了java基本數(shù)據(jù)類型與Object的關(guān)系說明,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-03-03
MyBatis連接數(shù)據(jù)庫配置的基本步驟和機制
MyBatis 是一個流行的持久層框架,它通過使用XML或注解的方式將SQL語句、存儲過程和Java方法進行綁定,從而避免了手寫大量的JDBC代碼和手動設(shè)置參數(shù)與結(jié)果集,本文給大家介紹了MyBatis連接數(shù)據(jù)庫配置的基本步驟和機制,需要的朋友可以參考下2024-05-05
Spring Boot配置攔截器及實現(xiàn)跨域訪問的方法
這篇文章主要介紹了Spring Boot配置攔截器及實現(xiàn)跨域訪問的方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2018-12-12
Java中如何使用Gson將對象轉(zhuǎn)換為JSON字符串
這篇文章主要給大家介紹了關(guān)于Java中如何使用Gson將對象轉(zhuǎn)換為JSON字符串的相關(guān)資料,Gson是Google的一個開源項目,可以將Java對象轉(zhuǎn)換成JSON,也可能將JSON轉(zhuǎn)換成Java對象,需要的朋友可以參考下2023-11-11
flowable動態(tài)創(chuàng)建多級流程模板實現(xiàn)demo
這篇文章主要為大家介紹了flowable動態(tài)創(chuàng)建多級流程模板實現(xiàn)demo,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-05-05

