Java爬蟲抓取視頻網(wǎng)站下載鏈接

更新時(shí)間：2016年10月19日 12:02:17 作者：pangfc

本文是通過JAVA獲取優(yōu)酷、土豆、酷6、6間房等視頻，小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧

本篇文章抓取目標(biāo)網(wǎng)站的鏈接的基礎(chǔ)上，進(jìn)一步提高難度，抓取目標(biāo)頁面上我們所需要的內(nèi)容并保存在數(shù)據(jù)庫中。這里的測試案例選用了一個(gè)我常用的電影下載網(wǎng)站（http://www.80s.la/）。本來是想抓取網(wǎng)站上的所有電影的下載鏈接，后來感覺需要的時(shí)間太長，因此改成了抓取2015年電影的下載鏈接。

一原理簡介

其實(shí)原理都跟第一篇文章差不多，不同的是鑒于這個(gè)網(wǎng)站的分類列表實(shí)在太多，如果不對(duì)這些標(biāo)簽加以取舍的話，需要花費(fèi)的時(shí)間難以想象。

分類鏈接和標(biāo)簽鏈接都不要，不通過這些鏈接去爬取其他頁面，只通過頁底的所有類型電影的分頁去獲取其他頁面的電影列表即可。同時(shí)，對(duì)于電影詳情頁面，僅僅只是抓取其中的電影標(biāo)題和迅雷下載鏈接，并不進(jìn)行深層次的爬行，詳情頁面的一些推薦電影等鏈接通通不要。

最后就是將所有獲取到的電影的下載鏈接保存在videoLinkMap這個(gè)集合中，通過遍歷這個(gè)集合將數(shù)據(jù)保存到MySQL里

二代碼實(shí)現(xiàn)

實(shí)現(xiàn)原理已經(jīng)在上面說了，并且代碼中有詳細(xì)注釋，因此這里就不多說了，代碼如下：

package action;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
public class VideoLinkGrab {
 
  public static void main(String[] args) {
    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();
    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");
  }
 
  /**
   * 將獲取到的數(shù)據(jù)保存在數(shù)據(jù)庫中
   * 
   * @param baseUrl
   *      爬蟲起點(diǎn)
   * @return null
   * */
  public void saveData(String baseUrl) {
    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存儲(chǔ)鏈接-是否被遍歷
 
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLinkHost = ""; // host
 
    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如：http://www.zifangsky.cn
    Matcher m = p.matcher(baseUrl);
    if (m.find()) {
      oldLinkHost = m.group();
    }
 
    oldMap.put(baseUrl, false);
    videoLinkMap = crawlLinks(oldLinkHost, oldMap);
    // 遍歷，然后將數(shù)據(jù)保存在數(shù)據(jù)庫中
    try {
      Connection connection = JDBCDemo.getConnection();
      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {
        PreparedStatement pStatement = connection
            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");
        pStatement.setString(1, mapping.getKey());
        pStatement.setString(2, mapping.getValue());
        pStatement.executeUpdate();
        pStatement.close();
//       System.out.println(mapping.getKey() + " : " + mapping.getValue());
      }
      connection.close();
    } catch (SQLException e) {
      e.printStackTrace();
    }
  }
 
  /**
   * 抓取一個(gè)網(wǎng)站所有可以抓取的網(wǎng)頁鏈接，在思路上使用了廣度優(yōu)先算法 對(duì)未遍歷過的新鏈接不斷發(fā)起GET請求， 一直到遍歷完整個(gè)集合都沒能發(fā)現(xiàn)新的鏈接
   * 則表示不能發(fā)現(xiàn)新的鏈接了，任務(wù)結(jié)束
   * 
   * 對(duì)一個(gè)鏈接發(fā)起請求時(shí)，對(duì)該網(wǎng)頁用正則查找我們所需要的視頻鏈接，找到后存入集合videoLinkMap
   * 
   * @param oldLinkHost
   *      域名，如：http://www.zifangsky.cn
   * @param oldMap
   *      待遍歷的鏈接集合
   * 
   * @return 返回所有抓取到的視頻下載鏈接集合
   * */
  private Map<String, String> crawlLinks(String oldLinkHost,
      Map<String, Boolean> oldMap) {
    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次循環(huán)獲取到的新鏈接
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLink = "";
 
    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {
      // System.out.println("link:" + mapping.getKey() + "--------check:"
      // + mapping.getValue());
      // 如果沒有被遍歷過
      if (!mapping.getValue()) {
        oldLink = mapping.getKey();
        // 發(fā)起GET請求
        try {
          URL url = new URL(oldLink);
          HttpURLConnection connection = (HttpURLConnection) url
              .openConnection();
          connection.setRequestMethod("GET");
          connection.setConnectTimeout(2500);
          connection.setReadTimeout(2500);
 
          if (connection.getResponseCode() == 200) {
            InputStream inputStream = connection.getInputStream();
            BufferedReader reader = new BufferedReader(
                new InputStreamReader(inputStream, "UTF-8"));
            String line = "";
            Pattern pattern = null;
            Matcher matcher = null;
            //電影詳情頁面，取出其中的視頻下載鏈接，不繼續(xù)深入抓取其他頁面
            if(isMoviePage(oldLink)){
              boolean checkTitle = false;
              String title = "";
              while ((line = reader.readLine()) != null) {
                //取出頁面中的視頻標(biāo)題
                if(!checkTitle){
                  pattern = Pattern.compile("([^\\s]+).*?</title>");
                  matcher = pattern.matcher(line);
                  if(matcher.find()){
                    title = matcher.group(1);
                    checkTitle = true;
                    continue;
                  }
                }
                // 取出頁面中的視頻下載鏈接
                pattern = Pattern
                    .compile("(thunder:[^\"]+).*thunder[rR]es[tT]itle=\"[^\"]*\"");
                matcher = pattern.matcher(line);
                if (matcher.find()) {
                  videoLinkMap.put(title,matcher.group(1));
                  System.out.println("視頻名稱： "
                      + title + " ------ 視頻鏈接："
                      + matcher.group(1));
                  break; //當(dāng)前頁面已經(jīng)檢測完畢
                }
              } 
            }
            //電影列表頁面
            else if(checkUrl(oldLink)){
              while ((line = reader.readLine()) != null) {
 
                pattern = Pattern
                    .compile("<a href=\"([^\"\\s]*)\"");
                matcher = pattern.matcher(line);
                while (matcher.find()) {
                  String newLink = matcher.group(1).trim(); // 鏈接
                  // 判斷獲取到的鏈接是否以http開頭
                  if (!newLink.startsWith("http")) {
                    if (newLink.startsWith("/"))
                      newLink = oldLinkHost + newLink;
                    else
                      newLink = oldLinkHost + "/" + newLink;
                  }
                  // 去除鏈接末尾的 /
                  if (newLink.endsWith("/"))
                    newLink = newLink.substring(0,
                        newLink.length() - 1);
                  // 去重，并且丟棄其他網(wǎng)站的鏈接
                  if (!oldMap.containsKey(newLink)
                      && !newMap.containsKey(newLink)
                      && (checkUrl(newLink) || isMoviePage(newLink))) {
                    System.out.println("temp: " + newLink);
                    newMap.put(newLink, false);
                  }
                }
              }
            }
 
            reader.close();
            inputStream.close();
          }
          connection.disconnect();
        } catch (MalformedURLException e) {
          e.printStackTrace();
        } catch (IOException e) {
          e.printStackTrace();
        }
 
        try {
          Thread.sleep(1000);
        } catch (InterruptedException e) {
          e.printStackTrace();
        }
        oldMap.replace(oldLink, false, true);
      }
    }
    // 有新鏈接，繼續(xù)遍歷
    if (!newMap.isEmpty()) {
      oldMap.putAll(newMap);
      videoLinkMap.putAll(crawlLinks(oldLinkHost, oldMap)); // 由于Map的特性，不會(huì)導(dǎo)致出現(xiàn)重復(fù)的鍵值對(duì)
    }
    return videoLinkMap;
  }
   
  /**
   * 判斷是否是2015年的電影列表頁面
   * @param url 待檢查URL
   * @return 狀態(tài)
   * */
  public boolean checkUrl(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/list/-2015----p\\d*");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //2015年的列表
    else
      return false;
  }
   
  /**
   * 判斷頁面是否是電影詳情頁面
   * @param url 頁面鏈接
   * @return 狀態(tài)
   * */
  public boolean isMoviePage(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/\\d+");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //電影頁面
    else 
      return false;
  }
   
}

注：如果想要實(shí)現(xiàn)抓取其他網(wǎng)站的一些指定內(nèi)容的話，需要將其中的一些正則表達(dá)式根據(jù)實(shí)際情況進(jìn)行合理修改

三測試效果

以上就是本文的全部內(nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

java
爬蟲

相關(guān)文章

Java類加載器層次結(jié)構(gòu)原理解析
這篇文章主要介紹了Java類加載器層次結(jié)構(gòu)原理解析,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-06-06
Java實(shí)現(xiàn)二分查找樹及其相關(guān)操作
二分查找樹是一種有組織的二叉樹。我們可以通過鏈接節(jié)點(diǎn)表示這樣一棵樹，二分查找樹（Binary Search Tree）的基本操作有搜索、求最大值、求最小值、求前驅(qū)、求后繼、插入及刪除，對(duì)java二分查找樹相關(guān)知識(shí)感興趣的朋友一起看看吧
2021-07-07
SpringMvc接收參數(shù)方法總結(jié)(必看篇)
下面小編就為大家?guī)硪黄猄pringMvc接收參數(shù)方法總結(jié)(必看篇)。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-06-06
這篇文章主要為大家詳細(xì)介紹了java簡單實(shí)現(xiàn)數(shù)組中的逆序?qū)Γ哂幸欢ǖ膮⒖純r(jià)值，感興趣的小伙伴們可以參考一下
2019-03-03

從Mybatis-Plus開始認(rèn)識(shí)SerializedLambda的詳細(xì)過程

這篇文章主要介紹了從Mybatis-Plus開始認(rèn)識(shí)SerializedLambda,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下

2024-07-07

Java反射機(jī)制介紹

Java的反射機(jī)制是在運(yùn)行狀態(tài)中，對(duì)于任何一個(gè)類，都可以知道這個(gè)類的所有屬性和方法，對(duì)于任何一個(gè)對(duì)象，都可以調(diào)用它所有的方法和屬性，修改部分類型信息，這種動(dòng)態(tài)獲取信息以及動(dòng)態(tài)調(diào)用對(duì)象方法的功能稱為Java的反射機(jī)制

2022-08-08