Java使用httpRequest+Jsoup爬取紅藍(lán)球號碼
1、Jsoup介紹
1.1、簡介
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。
1.2、Jsoup的主要功能
1、從一個URL,文件或字符串中解析HTML
2、使用DOM或CSS選擇器來查找、取出數(shù)據(jù)
3、可操作HTML元素、屬性、文本
注意:jsoup是基于MIT協(xié)議發(fā)布的,可放心使用于商業(yè)項目。
2、源網(wǎng)站及頁面元素分析
2.1、號碼源
首先,這里我選擇近年來比較穩(wěn)定的數(shù)據(jù)源地址【某網(wǎng)站】截圖如下

2.2、dom元素分析
2.2.1、開獎號碼主體分析
先打開開發(fā)者工具,找到每條開獎號碼對應(yīng)的dom元素
可以看到每一期號碼信息主體在一個<tr>標(biāo)簽中,其中第一個<td>是開獎日期,第二個<td>是開獎期號,第三個<td>是開獎號碼,每個獎號是單獨(dú)的標(biāo)簽,紅球的class=rr,籃球沒有設(shè)置樣式
<tr>
<td align="center">2021-06-13</td>
<td align="center">2021065</td>
<td align="center" style="padding-left:10px;">
<em class="rr">01</em>
<em class="rr">04</em>
<em class="rr">08</em>
<em class="rr">19</em>
<em class="rr">29</em>
<em class="rr">33</em>
<em>16</em></td>
<td><strong>362,527,724</strong></td>
<td align="left" style="color:#999;"><strong>3</strong></td>
<td align="center"><strong class="rc">82</strong></td>
<td align="center">
<a rel="external nofollow" target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_42.jpg" width="16" height="16" align="absmiddle" title="詳細(xì)信息"></a>
<a rel="external nofollow" target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_43.jpg" width="16" height="16" align="absmiddle" title="開獎視頻"></a>
</td>
</tr>
2.2.2、頁碼區(qū)域分析
由于我們爬取數(shù)據(jù)的時候,需要進(jìn)行翻頁操作,所以這里還需要分析翻頁部分的內(nèi)容,繼續(xù)在開發(fā)者工具中,定位頁碼區(qū)域

可以看到頁碼部分是<tbody>中的最后一個<tr>中,翻頁操作的內(nèi)容再class=pg的 <p> 標(biāo)簽中
可以拆分為多個<storage>標(biāo)簽數(shù)組,可以分析得出翻頁鏈接的規(guī)律。
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=頁碼
或
/zhcw/html/ssq/list_頁碼.html
| 元素 | 含義 |
|---|---|
| 0 | 總頁數(shù) |
| 1 | 總記錄數(shù) |
| 2 | 第一頁的連接 |
| 3 | 上一頁的鏈接 |
| 4 | 下一頁的鏈接 |
| 5 | 最后一頁的連接 |
| 6 | 當(dāng)前頁數(shù) |
<tr>
<td colspan="7" align="center" style="background:#fdf2e3;">
<p class="zhu"></p>
<p class="pg">
共<strong>136</strong> 頁 /<strong>2709 </strong>條記錄
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp" rel="external nofollow" >首頁</a></strong>
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1" rel="external nofollow" >上一頁</a></strong>
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2" rel="external nofollow" >下一頁</a></strong>
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136" rel="external nofollow" >末頁</a></strong>
當(dāng)前第<strong> 1 </strong>頁</p>
</td>
</tr>
3、代碼實(shí)現(xiàn)
maven引用,這里使用的是Jsoup1.13.1版本
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
這使用的是基于jeecg開發(fā)的Job,搭建過程不贅述了,直接看主體代碼。
public void execute(JobExecutionContext arg0) throws JobExecutionException {
Integer maxPage=getMaxPage();//獲取總頁數(shù)
for(int pageNo=0;pageNo<maxPage;pageNo++){//循環(huán)處理每一頁的數(shù)據(jù)
String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_"+(pageNo+1)+".html";//拼訪問地址
String strDateFormat = "yyyy-MM-dd";
SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat);
String html = JwtHttpUtil.httpRequest(url, "GET",null);//訪問對應(yīng)的頁面
Document doc = Jsoup.parse(html);//用Jsoup解析頁面內(nèi)容并且解析為Document
Document doc1= Jsoup.parse(doc.getElementsByClass("wqhgt").toString());//wqhgt是table標(biāo)簽的class,這里獲取到開獎號碼的table的內(nèi)容并且解析為Document
Elements trs= doc1.getElementsByTag("tr");//根據(jù)tag獲取到所有的tr標(biāo)簽,這里獲取到的是一個Element數(shù)組
logger.info("當(dāng)前頁碼---"+(pageNo+1)+"----"+trs.size());
for(int i=2;i<trs.size()-1;i++){//這里是根據(jù)頁面內(nèi)容確定開獎內(nèi)容是從第三個tr開始到倒數(shù)第二個tr結(jié)束,最后一個tr是翻頁按鈕
try {
Elements tds=trs.get(i).getElementsByTag("td");
String kjrq=tds.get(0).text();
String kjqh=tds.get(1).text();
//這里是為了防止重復(fù)拉取,所以做了判斷,如果已存在當(dāng)前期的獎號,就直接跳過
Long count=lotterySsqKjjlService.getCountForJdbc("select count(*) from lottery_ssq_kjjl where SSQ_KJQH='"+ kjqh + "'");
//下面的內(nèi)容很容易理解,就是可以對照頁面分析部分內(nèi)容看,就不贅述了
if(count>0)break;
LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();
Elements kjhm=tds.get(2).getElementsByTag("em");
kjhmEntiry.setSsqKjrq(sdf.parse(kjrq));
kjhmEntiry.setSsqKjqh(kjqh);
kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));
kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));
kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));
kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));
kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));
kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));
kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));
lotterySsqKjjlService.save(kjhmEntiry);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
private Integer getMaxPage(){
String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html";
String html = JwtHttpUtil.httpRequest(url, "GET",null);
Document doc = Jsoup.parse(html);
Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString());
Elements elePageBar = docPageBar.getElementsByTag("strong");
Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text());
return maxPageNo;
}
以下是執(zhí)行完成的部分?jǐn)?shù)據(jù)截圖

拉取到基礎(chǔ)數(shù)據(jù)后,我們可以再寫一個job,去計算出每期開獎號碼的指標(biāo),可以進(jìn)行獎號分析,預(yù)測等。
這里簡單實(shí)現(xiàn)了部分分析指標(biāo)的計算,以下是主體代碼。
public void run(){
List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t");
for(int i=0;i<list.size();i++){
LotterySsqKjjlEntity kjjg=list.get(i);
logger.info("正在處理:"+kjjg.getSsqKjqh());
kjjg.setSsqMin(kjjg.getSsqR1());//最小號
kjjg.setSsqMax(kjjg.getSsqR6());//最大號
kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//號碼跨度
kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, "jsCnt"));//奇數(shù)個數(shù)
kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, "osCnt"));//偶數(shù)個數(shù)
kjjg.setSsqSum(ssqKjjgUtils(kjjg, "sum"));//號碼和
lotterySsqKjjlService.updateEntitie(kjjg);
}
logger.info("結(jié)果數(shù)據(jù)條數(shù)"+list.size());
}
/**
*
* @param kjjg
* @param opType jsgs=奇數(shù)個數(shù)
* @return
*/
private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){
List<Integer> t =new ArrayList<Integer>();
t.add(kjjg.getSsqR1());
t.add(kjjg.getSsqR2());
t.add(kjjg.getSsqR3());
t.add(kjjg.getSsqR4());
t.add(kjjg.getSsqR5());
t.add(kjjg.getSsqR6());
Integer result=0;
switch (opType) {
case "jsCnt":
case "osCnt":
int jsgs=0;
int osgs=0;
for(int i=0;i<t.size();i++){
if(t.get(i)%2==0){
osgs++;
}else{
jsgs++;
}
}
if("jsCnt".equals(opType)){
result=jsgs;
}else{
result=osgs;
}
break;
case "sum":
int sum=0;
for(int i=0;i<t.size();i++){
sum+=t.get(i);
}
result=sum;
break;
default:
break;
}
return result;
}
至此,這個簡單的爬蟲就寫完了,可以利用爬過來的這些基礎(chǔ)數(shù)據(jù),進(jìn)行一些數(shù)據(jù)分析,預(yù)測。
到此這篇關(guān)于Java使用httpRequest+Jsoup爬取紅藍(lán)球號碼的文章就介紹到這了,更多相關(guān)Java 爬取紅藍(lán)球號碼內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
JSON的String字符串與Java的List列表對象的相互轉(zhuǎn)換
這篇文章主要介紹了JSON的String字符串與Java的List列表對象的相互轉(zhuǎn)換,如果在瀏覽器端JSON是list則轉(zhuǎn)為string結(jié)構(gòu)來處理,需要的朋友可以參考下2016-04-04
Intellij IDEA遠(yuǎn)程debug教程實(shí)戰(zhàn)和要點(diǎn)總結(jié)(推薦)
這篇文章主要介紹了Intellij IDEA遠(yuǎn)程debug教程實(shí)戰(zhàn)和要點(diǎn)總結(jié)(推薦),本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-03-03
使用spring-boot-admin對spring-boot服務(wù)進(jìn)行監(jiān)控的實(shí)現(xiàn)方法
這篇文章主要介紹了使用spring-boot-admin對spring-boot服務(wù)進(jìn)行監(jiān)控的實(shí)現(xiàn)方法,需要的朋友可以參考下2018-02-02
200行Java代碼如何實(shí)現(xiàn)依賴注入框架詳解
依賴注入對大家來說應(yīng)該都不陌生,下面這篇文章主要給大家介紹了關(guān)于利用200行Java代碼如何實(shí)現(xiàn)依賴注入框架的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2018-05-05
Java中Map循環(huán)遍歷的五種方法實(shí)現(xiàn)
本文主要介紹了Java中Map循環(huán)遍歷的五種方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-07-07
redis發(fā)布訂閱Java代碼實(shí)現(xiàn)過程解析
這篇文章主要介紹了redis發(fā)布訂閱Java代碼實(shí)現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-09-09

