node爬取新型冠狀病毒的疫情實(shí)時(shí)動(dòng)態(tài)
寫在前面:
新型冠狀病毒有多么可怕,我想大家都已經(jīng)知道了。湖北爆發(fā)了新型冠狀病毒,湖南前幾天爆發(fā)了禽流感,四川發(fā)生地震,中國(guó)加油!昨天晚上我突發(fā)奇想地打算把疫情實(shí)時(shí)動(dòng)態(tài)展示在自建站上,于是說(shuō)干就干(先附上昨晚用puppeteer截的圖片)。

安裝node_modules:
所需的node_modules:①puppeteer;②cheerio;③fs;④cron。
需要注意的是安裝puppeteer的時(shí)候很容易安裝失敗,這里有倆個(gè)解決方法,都是用淘寶源(馬云爸爸不是白叫的😄)。
一、先將npm換成淘寶源再安裝:
npm config set registry http://registry.npm.taobao.org/ npm install -g cheerio npm i -g puppeteer npm i -g fs npm i -g cron
二、用cnpm進(jìn)行安裝:
npm install cnpm -g --registry=https://registry.npm.taobao.org/ cnpm install -g cheerio cnpm i -g puppeteer cnpm i -g fs cnpm i -g cron
具體操作:
用puppeteer爬?。?/p>
puppeteer本質(zhì)上是一個(gè)chrome瀏覽器,網(wǎng)頁(yè)很難分清這是人類用戶還是爬蟲,我們可以用它來(lái)加載動(dòng)態(tài)網(wǎng)頁(yè)。
先來(lái)一個(gè)簡(jiǎn)單的例子,用puppeteer截圖:
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']}); //啟動(dòng)瀏覽器實(shí)例
/* puppeteer.launch()的可選參數(shù)如下:
headless: 是否打開瀏覽器,默認(rèn)為true
ignoreHTTPSErrors: 是否忽略https錯(cuò)誤,默認(rèn)為true
executablePath: 配置要調(diào)用瀏覽器的可執(zhí)行路徑,默認(rèn)是同Puppeteer一起安裝的Chromeium
slowMo:指定的毫秒延緩Puppeteer的操作
args:設(shè)置瀏覽器的相關(guān)參數(shù),比如是否啟動(dòng)沙箱模式“--no-sandbox”,是否更換代理“--proxy-server”,
*/
const page = await browser.newPage(); //新建頁(yè)面
await page.goto('https://ncov.dxy.cn/'); //訪問目標(biāo)網(wǎng)頁(yè):丁香醫(yī)生
await page.screenshot({ //進(jìn)行截圖
path: 'p1.png',
type: 'png',
// quality: 100, 只對(duì)jpg有效
// 指定區(qū)域截圖,clip和fullPage兩者只能設(shè)置一個(gè)
// fullPage: true,
clip: {
x: 0,
y: 0,
width: 1000,
height: 1000
}
});
browser.close(); //關(guān)閉瀏覽器
})();
用puppeteer獲取網(wǎng)頁(yè)源代碼:
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('https://ncov.dxy.cn/');
//page.frames() 獲取當(dāng)前頁(yè)面所有的 iframe,然后根據(jù) iframe 的名字精確獲取某個(gè)想要的 iframe
const frame = await page.mainFrame();
const bodyHandle = await frame.$('html'); //獲取所有的html
//frame.evaluate()在瀏覽器中執(zhí)行函數(shù),相當(dāng)于在控制臺(tái)中執(zhí)行函數(shù),返回一個(gè)Promise
const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
await bodyHandle.dispose();
browser.close();
console.log(html);
})();
用cheerio解析html:
// 使用cheerio模塊裝載我們得到的頁(yè)面源代碼,返回的是一個(gè)類似于jquery中的$對(duì)象
// 使用這個(gè)$對(duì)象就像操作jquery對(duì)象一般去操作我們獲取得到的頁(yè)面的源代碼
var $ = cheerio.load(html);
var $menu_box = $(".statistics___1cFUQ");
console.log($menu_box.html());
用fs寫入到文件中:
/* fs.wirteFile有三個(gè)參數(shù)
* 1,第一個(gè)參數(shù)是要寫入的文件路徑
* 2,第二個(gè)參數(shù)是要寫入得內(nèi)容
* 3,第三個(gè)參數(shù)是可選參數(shù),表示要寫入的文件編碼格式,一般就不寫,默認(rèn)就行
* 4,第四個(gè)參數(shù)是個(gè)回調(diào)函數(shù) 只有一個(gè)參數(shù)error,來(lái)判斷是否寫入成功
*/
fs.writeFile("./coronavirus.php",$menu_box.html(),error=>{
if(error) return console.log("寫入文件失敗,原因是:"+error.message);
console.log('寫入成功');
});
引入到網(wǎng)站中:
我是直接把它放在頭部,局部代碼如下:
<div id="header-bg">
<style type="text/css">
.title___2d1_B img {
width: 18px;
height: 18px;
cursor:pointer;
}
#novel_coronavirus {
text-align: center;
position:relative;
top:50px;
background-color:rgba(255,255,255,0.7);
}
#novel_coronavirus li {
margin: 10px;
padding:2px;
border:1px slide #000;
}
#novel_coronavirus ul li {
list-style:none;
display: inline-block;
}
.count___3GCdh p{
font-size:12px;
}
.count___3GCdh span{
font-size:20px;
}
</style>
<div id="novel_coronavirus" >
<strong><p style="font-size:23px">新型冠狀病毒疫情實(shí)時(shí)動(dòng)態(tài)</p></strong>
<?php require("./test/coronavirus.php");?>
</div>
</div>
服務(wù)器上運(yùn)行的完整代碼:
CronJob的定時(shí)參數(shù)是 秒 分鐘 小時(shí) 天 月份 星期。這里我設(shè)置成了每分鐘爬取一次。(我是用mstsc遠(yuǎn)程連接后運(yùn)行node coronavirus.js的,這樣關(guān)閉遠(yuǎn)程桌面連接后,服務(wù)器依然會(huì)每分鐘爬取一次丁香醫(yī)生上的新型冠狀病毒的全國(guó)疫情實(shí)時(shí)動(dòng)態(tài)。
const cheerio = require('cheerio');
const puppeteer = require('puppeteer');
const fs = require('fs');
var cronJob = require('cron').CronJob;
new cronJob('0 */1 * * * *',function(){
update();
},null,true); //每分鐘執(zhí)行一次
//爬取全國(guó)新型肺炎疫情實(shí)時(shí)動(dòng)態(tài)并寫入到指定的.php文件
function update() {
(async () => {
const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});
const page = await browser.newPage();
await page.goto('https://ncov.dxy.cn/');
const frame = await page.mainFrame();
const bodyHandle = await frame.$('html');
const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
await bodyHandle.dispose();
browser.close();
var $ = cheerio.load(html);
var $menu_box = $(".statistics___1cFUQ");
fs.writeFile("coronavirus.php",$menu_box.html(),error=>{
if(error) {
console.log("寫入文件失敗,原因是:"+error.message);
} else {
console.log('更新成功');
}
});
})();
}
查看我的網(wǎng)站


總結(jié)
以上所述是小編給大家介紹的node爬取新型冠狀病毒的疫情實(shí)時(shí)動(dòng)態(tài),希望對(duì)大家有所幫助!
- python+selenium定時(shí)爬取丁香園的新型冠狀病毒數(shù)據(jù)并制作出類似的地圖(部署到云服務(wù)器)
- 將新型冠狀病毒轉(zhuǎn)二進(jìn)制的代碼(首發(fā))
- Python抓新型冠狀病毒肺炎疫情數(shù)據(jù)并繪制全國(guó)疫情分布的代碼實(shí)例
- Python實(shí)現(xiàn)新型冠狀病毒傳播模型及預(yù)測(cè)代碼實(shí)例
- PHP實(shí)現(xiàn)新型冠狀病毒疫情實(shí)時(shí)圖的實(shí)例
- Python實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)采集新型冠狀病毒數(shù)據(jù)實(shí)例
- python模擬預(yù)測(cè)一下新型冠狀病毒肺炎的數(shù)據(jù)
- 使用Python制作新型冠狀病毒實(shí)時(shí)疫情圖
- pyecharts繪制中國(guó)2020肺炎疫情地圖的實(shí)例代碼
相關(guān)文章
詳解如何優(yōu)雅在webpack項(xiàng)目實(shí)現(xiàn)mock服務(wù)器
這篇文章主要為大家介紹了詳解如何優(yōu)雅在webpack項(xiàng)目實(shí)現(xiàn)mock服務(wù)器,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-02-02
nodejs 圖解express+supervisor+ejs的用法(推薦)
下面小編就為大家?guī)?lái)一篇nodejs 圖解express+supervisor+ejs的用法(推薦)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-09-09
koa+mongoose實(shí)現(xiàn)簡(jiǎn)單增刪改查接口的示例代碼
這篇文章主要介紹了koa+mongoose實(shí)現(xiàn)簡(jiǎn)單增刪改查接口的示例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-05-05
利用Chrome DevTools直接調(diào)試Node.js和JavaScript的方法詳解(并行)
現(xiàn)在我們可以用瀏覽器調(diào)試node.js了!!!下面這篇文章主要介紹了利用Chrome DevTools直接調(diào)試Node.js和JavaScript的方法步驟,文中介紹的很詳細(xì),需要的朋友可以參考學(xué)習(xí),下面來(lái)一起看看吧。2017-02-02
Node.js操作redis實(shí)現(xiàn)添加查詢功能
Redis 是一個(gè)基于內(nèi)存的鍵(key)值(value)類型的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)容器,它既可以完全工作在內(nèi)存中,也可以持久化存儲(chǔ)。當(dāng) Redis 工作于持久化模式時(shí),可以將它當(dāng)作一個(gè)非關(guān)系型數(shù)據(jù)庫(kù)使用。2017-05-05
如何在Node.js中使用async函數(shù)的方法詳解
這篇文章主要為大家介紹了如何在Node.js中使用async函數(shù)的方法詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-12-12
使用npm命令提示: ''npm'' 不是內(nèi)部或外部命令,也不是可運(yùn)行的程序的處理方法
這篇文章主要介紹了使用npm命令提示: 'npm' 不是內(nèi)部或外部命令,也不是可運(yùn)行的程序,本文通過(guò)圖文并茂的形式給大家分享解決方案,需要的朋友可以參考下2020-05-05
簡(jiǎn)述pm2常用命令集合及配置文件說(shuō)明
這篇文章主要介紹了簡(jiǎn)述pm2常用命令集合及配置文件說(shuō)明,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-05-05

