網(wǎng)絡(luò)爬蟲案例解析
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常被稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本,已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲抓取Web網(wǎng)頁、文檔甚至圖片、音頻、視頻等資源,通過相應(yīng)的索引技術(shù)組織這些信息,提供給搜索用戶進(jìn)行查詢。網(wǎng)絡(luò)爬蟲也為中小站點(diǎn)的推廣提供了有效的途徑,網(wǎng)站針對搜索引擎爬蟲的優(yōu)化曾風(fēng)靡一時。
網(wǎng)絡(luò)爬蟲的基本工作流程如下:
1.首先選取一部分精心挑選的種子URL;
2.將這些URL放入待抓取URL隊列;
3.從待抓取URL隊列中取出待抓取在URL,解析DNS,并且得到主機(jī)的ip,并將URL對應(yīng)的網(wǎng)頁下載下來,存儲進(jìn)已下載網(wǎng)頁庫中。此外,將這些URL放進(jìn)已抓取URL隊列。
4.分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進(jìn)入下一個循環(huán)。
當(dāng)然,上面說的那些我都不懂,以我現(xiàn)在的理解,我們請求一個網(wǎng)址,服務(wù)器返回給我們一個超級大文本,而我們的瀏覽器可以將這個超級大文本解析成我們說看到的華麗的頁面
那么,我們只需要把這個超級大文本看成一個足夠大的String 字符串就OK了。
下面是我的代碼
package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
* Created by 1755790963 on 2017/3/10.
*/
public class Second {
public static void main(String[] args) throws IOException {
System.out.println("begin");
Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
String selector="div[class=d_post_content j_d_post_content clearfix]";
Elements elements = document.select(selector);
for (Element element:elements){
String word= element.text();
if(word.indexOf("@")>0){
word=word.substring(0,word.lastIndexOf("@")+7);
System.out.println(word);
}
System.out.println(word);
}
}
}
我在這里使用了apache公司所提供的jsoup jar包,jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。
在代碼里,我們可以直接使用Jsoup類,并.出Jsoup的connect()方法,這個方法返回一個org.jsoup.Connection對象,參數(shù)則是網(wǎng)站的url地址,Connection對象有一個get()方法返回Document對象
document對象的select方法可以返回一個Elements對象,而Elements對象正式Element對象的集合,但select()方法需要我們傳入一個String參數(shù),這個參數(shù)就是我們的選擇器
String selector="div[class=d_post_content j_d_post_content clearfix]";
我們的選擇器語法類似于jquery的選擇器語法,可以選取html頁面中的元素,選擇好后,就可以便利Elements集合,通過Element的text()方法獲取html中的代碼
這樣,一個最簡單的網(wǎng)絡(luò)爬蟲就寫完了。
我選擇的網(wǎng)址是 豆瓣網(wǎng),留下你的郵箱,我會給你發(fā)郵件 這樣一個百度貼吧,我扒的是所有人的郵箱地址
附上結(jié)果:

以上就是本文的全部內(nèi)容,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助,同時也希望多多支持腳本之家!
- 教你如何編寫簡單的網(wǎng)絡(luò)爬蟲
- 使用Python編寫簡單網(wǎng)絡(luò)爬蟲抓取視頻下載資源
- 使用scrapy實(shí)現(xiàn)爬網(wǎng)站例子和實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(蜘蛛)的步驟
- 以Python的Pyspider為例剖析搜索引擎的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法
- Java實(shí)現(xiàn)爬蟲給App提供數(shù)據(jù)(Jsoup 網(wǎng)絡(luò)爬蟲)
- 基于Java HttpClient和Htmlparser實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲代碼
- python3使用urllib模塊制作網(wǎng)絡(luò)爬蟲
- python使用rabbitmq實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲示例
- Python網(wǎng)絡(luò)爬蟲實(shí)例講解
- Android編寫簡單的網(wǎng)絡(luò)爬蟲
相關(guān)文章
淺談java實(shí)現(xiàn)背包算法(0-1背包問題)
本篇文章主要介紹了淺談java實(shí)現(xiàn)背包算法(0-1背包問題) ,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-08-08
Java8時間接口LocalDateTime詳細(xì)用法
最近看別人項(xiàng)目源碼,發(fā)現(xiàn)Java8新的日期時間API很方便強(qiáng)大,所以整理了這篇文章,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)java的小伙伴們有很好的幫助,需要的朋友可以參考下2021-05-05
Java?ThreadPoolExecutor線程池有關(guān)介紹
這篇文章主要介紹了Java?ThreadPoolExecutor線程池有關(guān)介紹,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-09-09
SpringBoot實(shí)現(xiàn)優(yōu)雅停機(jī)的多種方式
優(yōu)雅停機(jī)(Graceful Shutdown)在現(xiàn)代微服務(wù)架構(gòu)中是非常重要的,它幫助我們確保在應(yīng)用程序停止時,不會中斷正在進(jìn)行的請求或?qū)е聰?shù)據(jù)丟失,讓我們以通俗易懂的方式來講解這個概念以及如何在 Spring Boot 中實(shí)現(xiàn)它,需要的朋友可以參考下2025-01-01
Java如何根據(jù)key值修改Hashmap中的value值
這篇文章主要介紹了Java如何根據(jù)key值修改Hashmap中的value值問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-03-03
SpringBoot讀寫xml上傳到AWS存儲服務(wù)S3的示例
這篇文章主要介紹了SpringBoot讀寫xml上傳到S3的示例,幫助大家更好的理解和使用springboot框架,感興趣的朋友可以了解下2020-10-10
解決SpringBoot中LocalDateTime返回前端數(shù)據(jù)為數(shù)組結(jié)構(gòu)的問題
本文主要介紹了解決SpringBoot中LocalDateTime返回前端數(shù)據(jù)為數(shù)組結(jié)構(gòu)的問題,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2025-03-03

