網(wǎng)絡(luò)爬蟲案例解析

更新時間：2017年03月13日 10:39:13 作者：山登絕頂我為瘋

本文主要介紹了網(wǎng)絡(luò)爬蟲的小案例。具有很好的參考價值。下面跟著小編一起來看下吧

網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，更經(jīng)常被稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動的抓取萬維網(wǎng)信息的程序或者腳本，已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲抓取Web網(wǎng)頁、文檔甚至圖片、音頻、視頻等資源，通過相應(yīng)的索引技術(shù)組織這些信息，提供給搜索用戶進(jìn)行查詢。網(wǎng)絡(luò)爬蟲也為中小站點(diǎn)的推廣提供了有效的途徑，網(wǎng)站針對搜索引擎爬蟲的優(yōu)化曾風(fēng)靡一時。

網(wǎng)絡(luò)爬蟲的基本工作流程如下：

1.首先選取一部分精心挑選的種子URL；

2.將這些URL放入待抓取URL隊列；

3.從待抓取URL隊列中取出待抓取在URL，解析DNS，并且得到主機(jī)的ip，并將URL對應(yīng)的網(wǎng)頁下載下來，存儲進(jìn)已下載網(wǎng)頁庫中。此外，將這些URL放進(jìn)已抓取URL隊列。

4.分析已抓取URL隊列中的URL，分析其中的其他URL，并且將URL放入待抓取URL隊列，從而進(jìn)入下一個循環(huán)。

當(dāng)然，上面說的那些我都不懂，以我現(xiàn)在的理解，我們請求一個網(wǎng)址，服務(wù)器返回給我們一個超級大文本，而我們的瀏覽器可以將這個超級大文本解析成我們說看到的華麗的頁面

那么，我們只需要把這個超級大文本看成一個足夠大的String 字符串就OK了。

下面是我的代碼

package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
 * Created by 1755790963 on 2017/3/10.
 */
public class Second {
  public static void main(String[] args) throws IOException {
    System.out.println("begin");
    Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
    String selector="div[class=d_post_content j_d_post_content clearfix]";
    Elements elements = document.select(selector);
    for (Element element:elements){
      String word= element.text();
      if(word.indexOf("@")>0){
        word=word.substring(0,word.lastIndexOf("@")+7);
        System.out.println(word);
      }
      System.out.println(word);
    }
  }
}

我在這里使用了apache公司所提供的jsoup jar包，jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

在代碼里，我們可以直接使用Jsoup類，并.出Jsoup的connect()方法，這個方法返回一個org.jsoup.Connection對象，參數(shù)則是網(wǎng)站的url地址，Connection對象有一個get()方法返回Document對象

document對象的select方法可以返回一個Elements對象，而Elements對象正式Element對象的集合，但select()方法需要我們傳入一個String參數(shù)，這個參數(shù)就是我們的選擇器

String selector="div[class=d_post_content j_d_post_content clearfix]";

我們的選擇器語法類似于jquery的選擇器語法，可以選取html頁面中的元素，選擇好后，就可以便利Elements集合，通過Element的text()方法獲取html中的代碼

這樣，一個最簡單的網(wǎng)絡(luò)爬蟲就寫完了。

我選擇的網(wǎng)址是豆瓣網(wǎng)，留下你的郵箱，我會給你發(fā)郵件這樣一個百度貼吧，我扒的是所有人的郵箱地址

附上結(jié)果：

以上就是本文的全部內(nèi)容，希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助，同時也希望多多支持腳本之家！

您可能感興趣的文章:

網(wǎng)絡(luò)爬蟲

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

網(wǎng)絡(luò)爬蟲案例解析

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

網(wǎng)絡(luò)爬蟲案例解析

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕