Java爬蟲范例之使用Htmlunit爬取學(xué)校教務(wù)網(wǎng)課程表信息
使用WebClient和htmlunit實現(xiàn)簡易爬蟲
import com.gargoylesoftware.htmlunit.WebClient;
提供了public
P getPage(final String url)方法獲得HtmlPage。
import com.gargoylesoftware.htmlunit.html.*;
包含了HtmlPage、HtmlForm、HtmlTextInput、HtmlPasswordInput、HtmlElement、DomElement等元素。
構(gòu)造webclient對象
WebClient webClient= new WebClient();
無參默認(rèn)是BrowserVersion.BEST_SUPPORTED,有參構(gòu)造支持5種瀏覽器:
BrowserVersion.CHROME
BrowserVersion.EDGE
BrowserVersion.FIREFOX
BrowserVersion.FIREFOX_78
BrowserVersion.INTERNET_EXPLOER
使用webclient.getPage(String url)獲得頁面:
try {
page = webClient.getPage(url);
} catch (IOException e) {
e.printStackTrace();
}
利用webClient.getPage(url);方法,將其封裝成一個getHtmlPage靜態(tài)方法
private static class innerWebClient{
private static final WebClient webClient = new WebClient();
}
public static HtmlPage getHtmlPage(String url){
//調(diào)用此方法時加載WebClient
WebClient webClient = innerWebClient.webClient;
webClient.getOptions().setCssEnabled(false);
//配置webClient
webClient.getOptions().setCssEnabled(false); //設(shè)置CSS是否生效
webClient.getOptions().setJavaScriptEnabled(true); //設(shè)置JS是否生效
webClient.setAjaxController(new NicelyResynchronizingAjaxController()); //設(shè)置AJAX請求
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false); //設(shè)置是否拋出異常碼
webClient.getOptions().setThrowExceptionOnScriptError(false); //設(shè)置是否拋出腳本錯誤
webClient.waitForBackgroundJavaScript(3*1000); //設(shè)置等待JS毫秒數(shù)
webClient.getCookieManager().setCookiesEnabled(true); //設(shè)置是否支持Cookie
HtmlPage page = null;
try {
page = webClient.getPage(url);
} catch (IOException e) {
e.printStackTrace();
}
return page;
}
在教務(wù)官網(wǎng)學(xué)期課表頁,拿到對應(yīng)標(biāo)簽的ID
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-SZUQdWi8-1636624187041)(C:\Users\CTC\Desktop\個人技術(shù)筆記\img\image-20211111172915897.jpg)]](http://img.jbzj.com/file_images/article/202111/2021111210462535.jpg)
登錄教務(wù)官網(wǎng)頁面:
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-dT0jj3LR-1636624187043)(C:\Users\CTC\Desktop\個人技術(shù)筆記\img\image-20211111171429061.jpg)]](http://img.jbzj.com/file_images/article/202111/2021111210462636.jpg)
靜態(tài)解析課程信息方法:
//獲取周次集合
public static ArrayList<Integer> getWeekCount(String weekAndSection){
ArrayList<Integer> weekList = new ArrayList<>();
int index = weekAndSection.indexOf("(周)");
if(index == -1){
return new ArrayList<>();
}
String subWeek = weekAndSection.substring(0, index); //1-3,5,15,18
String[] weekArr = new String[10];
int idx = subWeek.indexOf(","); //1或3
int num = 0,n = 0;
while (subWeek.contains(",")){
weekArr[num] = subWeek.substring(0,idx); //第一個逗號前面的內(nèi)容,給數(shù)組
subWeek = subWeek.substring(idx+1); //剩余內(nèi)容
n = subWeek.indexOf(",");
idx = n;
num++;
}
weekArr[num] = subWeek;
for (String s : weekArr) {
if(s!=null && !s.equals("")){
if(s.contains("-")){
int ix = s.indexOf("-");
int begin = Integer.parseInt(s.substring(0,ix));
int end = Integer.parseInt(s.substring(ix+1));
for (int i = begin; i <= end; i++) {
weekList.add(i);
}
}else{
weekList.add(Integer.parseInt(s));
}
}
}
return weekList;
}
//獲取節(jié)次集合
public static ArrayList<Integer> getSectionCount(String weekAndSection){
int begin = weekAndSection.indexOf("[") + 1;
int end = weekAndSection.indexOf("節(jié)");
String section = weekAndSection.substring(begin, end);
int len = section.length();
String first = section.substring(0,2);
String last = section.substring(len-2,len);
ArrayList<Integer> sectionList = new ArrayList<>();
int firstInt = Integer.parseInt(first);
int lastInt = Integer.parseInt(last);
for (int i = firstInt; i <= lastInt; i++) {
sectionList.add(i);
}
return sectionList;
}
開始解析課程信息
DomElement[][] domElements = new DomElement[7][6]; //7天,6個節(jié)次部分
String key = "";
//星期一~星期日:1-2~7-2
for (int i = 0;i < 7;i++){ //星期一到星期日
for (int j = 0;j <= 5;j++){ //sectionIds[0]到sectionIds[5]
if(j == 2){ //由于第5節(jié)為空,略過
continue;
}
key = sectionIds[j] + "-" + (i+1) + "-2";
if(page3.getElementById(key) == null){
throw new NullPointerException("Key過期了!");
}else{
domElements[i][j] = page3.getElementById(key);
}
String course = domElements[i][j].asText();
String temp[] = new String[10];
int num = 0;
int index;
for (int g = 0; course.contains("---------------------"); g = g + index) {
index = course.indexOf("---------------------");
temp[num] = course.substring(0,index);
course = course.substring(index+21);
num++;
}
temp[num] = course;
String[] courseInfo = new String[4];
for (int k = 0;k < temp.length;k++) {
if(temp[k] == null || temp[k].equals("") || temp[k].equals(" ")){
continue;
}
if(temp[k].indexOf("\n") == 1){
temp[k] = temp[k].substring(2);
}
ArrayList<Integer> weekList;
ArrayList<Integer> sectionList;
if(temp[k].contains("網(wǎng)絡(luò)課")){
temp[k] = temp[k].substring(0,temp[k].indexOf("\n"));
courseInfo[0] = temp[k];
weekList = null;
sectionList = null;
}else{
int idx,cnum = 0;
for(int h = 0; temp[k].contains("\n") && cnum <= 3;h = h+idx){
idx = temp[k].indexOf("\n");
courseInfo[cnum] = temp[k].substring(0,idx);
temp[k] = temp[k].substring(idx+1);
cnum++;
}
weekList = getWeekCount(courseInfo[2]);
sectionList = getSectionCount(courseInfo[2]);
}
System.out.println("課程名===" + courseInfo[0]);
System.out.println("教師名===" + courseInfo[1]);
System.out.println("周次===" + weekList);
System.out.println("節(jié)次===" + sectionList);
System.out.println("地點===" + courseInfo[3]);
System.out.println("星期" + (i+1));
}
}
}
輸出效果:
![[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-yTPDKTms-1636624187045)(C:\Users\CTC\Desktop\個人技術(shù)筆記\img\image-20211111173034258.jpg)]](http://img.jbzj.com/file_images/article/202111/2021111210462637.jpg)
基于Uni-App實現(xiàn)的課程表小程序:

以上就是Java爬蟲范例之使用Htmlunit爬取學(xué)校教務(wù)網(wǎng)課程表信息的詳細內(nèi)容,更多關(guān)于Java 爬蟲的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Java實現(xiàn)定時任務(wù)的方法總結(jié)
這篇文章主要為大家詳細介紹了Java中實現(xiàn)定時任務(wù)的常用7中方法,文中的示例代碼講解詳細,具有一定的借鑒價值,需要的小伙伴可以參考一下2023-06-06
關(guān)于Javaweb的轉(zhuǎn)發(fā)和重定向詳解
這篇文章主要介紹了關(guān)于Javaweb的轉(zhuǎn)發(fā)和重定向詳解,請求的轉(zhuǎn)發(fā),是指服務(wù)器收到請求后,從一個服務(wù)器端資源跳轉(zhuǎn)到同一個服務(wù)器端另外一個資源的操作,需要的朋友可以參考下2023-05-05
淺析Java的Hibernate框架中的繼承關(guān)系設(shè)計
這篇文章主要介紹了Java的Hibernate框架中的繼承關(guān)系設(shè)計,Hibernate是Java的SSH三大web開發(fā)框架之一,需要的朋友可以參考下2015-12-12
一文帶你學(xué)習(xí)Java多維數(shù)組的使用技巧
Java作為一門廣泛應(yīng)用于各行各業(yè)的開發(fā)語言,具有豐富的數(shù)據(jù)類型支持,其中多維數(shù)組是其重要的一種,多維數(shù)組可以更加方便地組織數(shù)據(jù),提高Java應(yīng)用程序的效率,本文將為大家介紹Java中多維數(shù)組的基本概念和常用操作,助力讀者更好地掌握多維數(shù)組的使用技巧2023-11-11
Springboot解決no main manifest attribute錯誤
在開發(fā)Springboot項目時,使用java -jar命令運行jar包可能出現(xiàn)no main manifest attribute錯誤,本文就來介紹一下該錯誤的解決方法,感興趣的可以了解一下2024-09-09
java input 調(diào)用手機相機和本地照片上傳圖片到服務(wù)器然后壓縮的方法
今天小編就為大家分享一篇java input 實現(xiàn)調(diào)用手機相機和本地照片上傳圖片到服務(wù)器然后壓縮的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-08-08
Spring MVC 4.1.3 + MyBatis零基礎(chǔ)搭建Web開發(fā)框架(注解模式)
本篇文章主要介紹了Spring MVC 4.1.3 + MyBatis零基礎(chǔ)搭建Web開發(fā)框架(注解模式),具有一定的參考價值,感興趣的小伙伴們可以參考一下。2017-03-03
Spring @ComponentScan注解使用案例詳細講解
@ComponentScan注解的作用可以簡述為:將項目中所有被@Component注解直接或者間接標(biāo)記的類---->組裝成BeanDefinition---->然后以key=beanName, value=BeanDefinition的形式存儲,為后續(xù)生成bean對象做準(zhǔn)備2023-03-03

