零基礎(chǔ)寫Java知乎爬蟲之先拿百度首頁(yè)練練手
上一集中我們說(shuō)到需要用Java來(lái)制作一個(gè)知乎爬蟲,那么這一次,我們就來(lái)研究一下如何使用代碼獲取到網(wǎng)頁(yè)的內(nèi)容。
首先,沒(méi)有HTML和CSS和JS和AJAX經(jīng)驗(yàn)的建議先去W3C(點(diǎn)我點(diǎn)我)小小的了解一下。
說(shuō)到HTML,這里就涉及到一個(gè)GET訪問(wèn)和POST訪問(wèn)的問(wèn)題。
如果對(duì)這個(gè)方面缺乏了解可以閱讀W3C的這篇:《GET對(duì)比POST》。
啊哈,在此不再贅述。
然后咧,接下來(lái)我們需要用Java來(lái)爬取一個(gè)網(wǎng)頁(yè)的內(nèi)容。
這時(shí)候,我們的百度就要派上用場(chǎng)了。
沒(méi)錯(cuò),他不再是那個(gè)默默無(wú)聞的網(wǎng)速測(cè)試器了,他即將成為我們的爬蟲小白鼠!~
我們先來(lái)看看百度的首頁(yè):

相信大家都知道,現(xiàn)在這樣的一個(gè)頁(yè)面,是HTML和CSS共同工作的結(jié)果。
我們?cè)跒g覽器中右擊頁(yè)面,選擇“查看頁(yè)面源代碼”:

沒(méi)錯(cuò),就是這一坨翔一樣的東西。這就是百度頁(yè)面的源代碼。
接下來(lái)我們的任務(wù),就是使用我們的爬蟲也獲取到一樣的東西。
先來(lái)看一段簡(jiǎn)單的源碼:
import java.io.*;
import java.net.*;
public class Main {
public static void main(String[] args) {
// 定義即將訪問(wèn)的鏈接
String url = " // 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
String result = "";
// 定義一個(gè)緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉(zhuǎn)成url對(duì)象
URL realUrl = new URL(url);
// 初始化一個(gè)鏈接到那個(gè)url的連接
URLConnection connection = realUrl.openConnection();
// 開始實(shí)際的連接
connection.connect();
// 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
String line;
while ((line = in.readLine()) != null) {
//遍歷抓取到的每一行并將其存儲(chǔ)到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
e.printStackTrace();
}
// 使用finally來(lái)關(guān)閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
System.out.println(result);
}
}
以上就是Java模擬Get訪問(wèn)百度的Main方法,
可以運(yùn)行一下看看結(jié)果:

啊哈,和我們前面用瀏覽器看到的一模一樣。至此,一個(gè)最最簡(jiǎn)單的爬蟲就算是做好了。
但是這么一大坨東西未必都是我想要的啊,怎么從中抓取出我想要的東西呢?
以百度的大爪子Logo為例。
臨時(shí)需求:
獲取百度Logo的大爪子的圖片鏈接。
先說(shuō)一下瀏覽器的查看方法。
鼠標(biāo)對(duì)圖片右擊,選擇審查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一樣):

啊哈,可以看到在一大堆div的圍攻下的可憐的img標(biāo)簽。
這個(gè)src就是圖像的鏈接了。
那么在java中我們?cè)趺锤隳兀?/p>
事先說(shuō)明,為了方便演示代碼,所有代碼均未作類封裝,還請(qǐng)諒解。
我們先把前面的代碼封裝成一個(gè)sendGet函數(shù):
import java.io.*;
import java.net.*;
public class Main {
static String sendGet(String url) {
// 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
String result = "";
// 定義一個(gè)緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉(zhuǎn)成url對(duì)象
URL realUrl = new URL(url);
// 初始化一個(gè)鏈接到那個(gè)url的連接
URLConnection connection = realUrl.openConnection();
// 開始實(shí)際的連接
connection.connect();
// 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
String line;
while ((line = in.readLine()) != null) {
// 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
e.printStackTrace();
}
// 使用finally來(lái)關(guān)閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
public static void main(String[] args) {
// 定義即將訪問(wèn)的鏈接
String url = " // 訪問(wèn)鏈接并獲取頁(yè)面內(nèi)容
String result = sendGet(url);
System.out.println(result);
}
}
這樣看起來(lái)稍微整潔了一點(diǎn),請(qǐng)?jiān)徫疫@個(gè)強(qiáng)迫癥。
接下來(lái)的任務(wù),就是從獲取到的一大堆東西里面找到那個(gè)圖片的鏈接。
我們首先可以想到的方法,是對(duì)頁(yè)面源碼的字符串result使用indexof函數(shù)進(jìn)行String的子串搜索。
沒(méi)錯(cuò)這個(gè)方法是可以慢慢解決這個(gè)問(wèn)題,比如直接indexOf("src")找到開始的序號(hào),然后再稀里嘩啦的搞到結(jié)束的序號(hào)。
不過(guò)我們不能一直使用這種方法,畢竟草鞋只適合出門走走,后期還是需要切假腿來(lái)拿人頭的。
請(qǐng)?jiān)徫业膩y入,繼續(xù)。
那么我們用什么方式來(lái)尋找這張圖片的src呢?
沒(méi)錯(cuò),正如下面觀眾所說(shuō),正則匹配。
如果有同學(xué)不太清楚正則,可以參照這篇文章:[Python]網(wǎng)絡(luò)爬蟲(七):Python中的正則表達(dá)式教程。
簡(jiǎn)單來(lái)說(shuō),正則就像是匹配。
比如三個(gè)胖子站在這里,分別穿著紅衣服,藍(lán)衣服,綠衣服。
正則就是:抓住那個(gè)穿綠衣服的!
然后把綠胖子單獨(dú)抓了出來(lái)。
就是這么簡(jiǎn)單。
但是正則的語(yǔ)法卻還是博大精深的,剛接觸的時(shí)候難免有點(diǎn)摸不著頭腦,
向大家推薦一個(gè)正則的在線測(cè)試工具:正則表達(dá)式在線測(cè)試。
有了正則這個(gè)神兵利器,那么怎么在java里面使用正則呢?
先來(lái)看個(gè)簡(jiǎn)單的小李子吧。
啊錯(cuò)了,小栗子。
// 定義一個(gè)樣式模板,此中使用正則表達(dá)式,括號(hào)中是要抓的內(nèi)容
// 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
Pattern pattern = Pattern.compile("href=\"(.+?)\"");
// 定義一個(gè)matcher用來(lái)做匹配
Matcher matcher = pattern.matcher("<a href=\"index.html\">我的主頁(yè)</a>");
// 如果找到了
if (matcher.find()) {
// 打印出結(jié)果
System.out.println(matcher.group(1));
}
運(yùn)行結(jié)果:
index.html
沒(méi)錯(cuò),這就是我們的第一個(gè)正則代碼。
這樣應(yīng)用的抓取圖片的鏈接想必也是信手拈來(lái)了。
我們將正則匹配封裝成一個(gè)函數(shù),然后將代碼作如下修改:
import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
static String SendGet(String url) {
// 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
String result = "";
// 定義一個(gè)緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉(zhuǎn)成url對(duì)象
URL realUrl = new URL(url);
// 初始化一個(gè)鏈接到那個(gè)url的連接
URLConnection connection = realUrl.openConnection();
// 開始實(shí)際的連接
connection.connect();
// 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
String line;
while ((line = in.readLine()) != null) {
// 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
e.printStackTrace();
}
// 使用finally來(lái)關(guān)閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
static String RegexString(String targetStr, String patternStr) {
// 定義一個(gè)樣式模板,此中使用正則表達(dá)式,括號(hào)中是要抓的內(nèi)容
// 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
Pattern pattern = Pattern.compile(patternStr);
// 定義一個(gè)matcher用來(lái)做匹配
Matcher matcher = pattern.matcher(targetStr);
// 如果找到了
if (matcher.find()) {
// 打印出結(jié)果
return matcher.group(1);
}
return "";
}
public static void main(String[] args) {
// 定義即將訪問(wèn)的鏈接
String url = " // 訪問(wèn)鏈接并獲取頁(yè)面內(nèi)容
String result = SendGet(url);
// 使用正則匹配圖片的src內(nèi)容
String imgSrc = RegexString(result, "即將的正則語(yǔ)法");
// 打印結(jié)果
System.out.println(imgSrc);
}
}
好的,現(xiàn)在萬(wàn)事俱備,只差一個(gè)正則語(yǔ)法了!
那么用什么正則語(yǔ)句比較合適呢?
我們發(fā)現(xiàn)只要抓住了src="xxxxxx"這個(gè)字符串,就能抓出整個(gè)src鏈接,
所以簡(jiǎn)單的正則語(yǔ)句:src=\"(.+?)\"
完整代碼如下:
import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
static String SendGet(String url) {
// 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
String result = "";
// 定義一個(gè)緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉(zhuǎn)成url對(duì)象
URL realUrl = new URL(url);
// 初始化一個(gè)鏈接到那個(gè)url的連接
URLConnection connection = realUrl.openConnection();
// 開始實(shí)際的連接
connection.connect();
// 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
String line;
while ((line = in.readLine()) != null) {
// 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
e.printStackTrace();
}
// 使用finally來(lái)關(guān)閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
static String RegexString(String targetStr, String patternStr) {
// 定義一個(gè)樣式模板,此中使用正則表達(dá)式,括號(hào)中是要抓的內(nèi)容
// 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
Pattern pattern = Pattern.compile(patternStr);
// 定義一個(gè)matcher用來(lái)做匹配
Matcher matcher = pattern.matcher(targetStr);
// 如果找到了
if (matcher.find()) {
// 打印出結(jié)果
return matcher.group(1);
}
return "Nothing";
}
public static void main(String[] args) {
// 定義即將訪問(wèn)的鏈接
String url = " // 訪問(wèn)鏈接并獲取頁(yè)面內(nèi)容
String result = SendGet(url);
// 使用正則匹配圖片的src內(nèi)容
String imgSrc = RegexString(result, "src=\"(.+?)\"");
// 打印結(jié)果
System.out.println(imgSrc);
}
}
這樣我們就能用java抓出百度LOGO的鏈接了。
好吧雖然花了很多時(shí)間講百度,但是基礎(chǔ)要打扎實(shí)啦,下次我們正式開始抓知乎咯!~
- 基于jquery實(shí)現(xiàn)的類似百度搜索的輸入框自動(dòng)完成功能
- 免費(fèi)開源百度編輯器(UEditor)使用方法
- 百度地圖api應(yīng)用標(biāo)注地理位置信息(js版)
- JS仿百度搜索自動(dòng)提示框匹配查詢功能
- 基于jquery的仿百度搜索框效果代碼
- js 調(diào)用百度地圖api并在地圖上進(jìn)行打點(diǎn)添加標(biāo)注
- 百度地圖API之本地搜索與范圍搜索
- java調(diào)用百度定位api服務(wù)獲取地理位置示例
- android實(shí)現(xiàn)百度地圖自定義彈出窗口功能
- 百度判斷手機(jī)終端并自動(dòng)跳轉(zhuǎn)js代碼及使用實(shí)例
- 百度地圖API應(yīng)用之獲取用戶的具體位置
- 百度地圖API使用方法詳解
- 讓input框?qū)崿F(xiàn)類似百度的搜索提示(基于jquery事件監(jiān)聽(tīng))
- 百度前臺(tái)js筆試題與答案
- Android百度地圖定位后獲取周邊位置的實(shí)現(xiàn)代碼
- Python使用Socket(Https)Post登錄百度的實(shí)現(xiàn)代碼
- 百度實(shí)時(shí)推送api接口應(yīng)用示例
- PHP利用熊掌號(hào)提交api向熊掌號(hào)批量提交網(wǎng)站url
相關(guān)文章
struts1登錄示例代碼_動(dòng)力節(jié)點(diǎn)Java學(xué)院整理
這篇文章主要介紹了struts1登錄示例代碼,需要的朋友可以參考下2017-08-08
基于JavaSwing設(shè)計(jì)和實(shí)現(xiàn)的酒店管理系統(tǒng)
這篇文章主要介紹了基于JavaSwing+mysql的酒店管理系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn),它可以實(shí)現(xiàn)酒店日常的管理功能包括開房、退房、房間信息、顧客信息管理等2021-08-08
使用jenkins+maven+git發(fā)布jar包過(guò)程詳解
這篇文章主要介紹了使用jenkins+maven+git發(fā)布jar包過(guò)程詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-07-07
Spring boot按日切分spring boot的nohup.out日志文件的方法
過(guò)大的日志文件維護(hù)起來(lái)存在諸多問(wèn)題,所以最好是能夠按日或按大小切分日志文件,下面小編給大家?guī)?lái)了Spring boot按日切分spring boot的nohup.out日志文件的方法,一起看看吧2018-08-08
SpringBoot之bootstrap和application的區(qū)別解讀
這篇文章主要介紹了SpringBoot之bootstrap和application的區(qū)別及說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-03-03
JDBC使用Statement修改數(shù)據(jù)庫(kù)
這篇文章主要為大家詳細(xì)介紹了JDBC使用Statement修改數(shù)據(jù)庫(kù),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-08-08
淺談SpringBoot項(xiàng)目如何讓前端開發(fā)提高效率(小技巧)
這篇文章主要介紹了淺談SpringBoot項(xiàng)目如何讓前端開發(fā)提高效率(小技巧),主要介紹了Swagger和Nginx提高效率的方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-04-04

