node.js 基于cheerio的爬蟲(chóng)工具的實(shí)現(xiàn)(需要登錄權(quán)限的爬蟲(chóng)工具)
公司有過(guò)一個(gè)需求,需要拿一個(gè)網(wǎng)頁(yè)的的表格數(shù)據(jù),數(shù)據(jù)量達(dá)到30w左右;為了提高工作效率。
結(jié)合自身經(jīng)驗(yàn)和網(wǎng)上資料。寫(xiě)了一套符合自己需求的nodejs爬蟲(chóng)工具。也許也會(huì)適合你的。
先上代碼。在做講解
'use strict';
// 引入模塊
const superagent = require('superagent');
const cheerio = require('cheerio');
const Excel = require('exceljs');
var baseUrl = '';
var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //偽裝的cookie
let pageDatas = [];
let count = 1;
let limit = 3;
for (count; count < limit; count++) {
baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`;
loadPage(baseUrl);
}
function loadPage(baseUrl) {
getPageLoad(baseUrl);
}
async function getPageLoad(baseUrl) {
try {
let body = await superagent.get(baseUrl)
.set("Cookie", Cookies)
var $ = cheerio.load(body.text);
var trList = $("#tableList").children("tr");
for (var i = 0; i < trList.length; i++) {
let item = {};
var tdArr = trList.eq(i).find("td");
var id = tdArr.eq(0).text();
item.sortId = id;
var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`;
item.policyId = tdArr.eq(1).text();
item.policyProductName = tdArr.eq(2).text();
item.policyName = tdArr.eq(3).text();
item.policyMoney = tdArr.eq(4).text();
let detailBody = await superagent.get(detailUrl)
.set("Cookie", Cookies);
var $$ = cheerio.load(detailBody.text);
var detailT = $$(".table-view");
//投保人證件號(hào)
item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text();
//投保人手機(jī)號(hào)
item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text();
//被保人手機(jī)號(hào)
item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text();
//被保人姓名
item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text();
console.log(item.bePoliciedName)
//被保人證件號(hào)
item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text();
pageDatas = [...pageDatas,item];
}
if (pageDatas.length / 15 == (count - 1)) {
writeXLS(pageDatas)
}
} catch (error) {
}
}
function writeXLS(pageDatas) {
const workbook = new Excel.Workbook();
const sheet = workbook.addWorksheet('My Sheet');
const reColumns=[
{header:'序號(hào)',key:'sortId'},
{header:'投保單號(hào)',key:'policyId'},
{header: '產(chǎn)品名稱(chēng)', key: 'policyProductName'},
{header: '投保人姓名', key: 'policyName' },
{header: '投保人手機(jī)號(hào)', key: 'policyPhone' },
{header: '投保人證件號(hào)', key: 'policyIdNum'},
{header: '被保人姓名', key: 'bePoliciedName' },
{header: '被保人手機(jī)號(hào)', key: 'bePoliciedPhone' },
{header: '被保人證件號(hào)', key: 'bePoliciedIdNum' },
{header:'保費(fèi)',key:'policyMoney'},
];
sheet.columns = reColumns;
for(let trData of pageDatas){
sheet.addRow(trData);
}
const filename = './projects.xlsx';
workbook.xlsx.writeFile(filename)
.then(function() {
console.log('ok');
}).catch(function (error) {
console.error(error);
});
}
代碼使用方式
一、npm install 相關(guān)的依賴二、代碼修改
1、修改為自己的baseUrl
2、如果不需要攜帶cookie時(shí)將set("Cookie", Cookies)代碼去掉
3、修改自己的業(yè)務(wù)代碼
三、運(yùn)行 node index四、部分代碼說(shuō)明
所有代碼不過(guò)90行不到,操作了表格數(shù)據(jù)獲取和單條數(shù)據(jù)詳情的獲取

接口請(qǐng)求的框架使用superagent的原因是拼接偽裝的cookie的操作比較簡(jiǎn)單。因?yàn)橛械臅r(shí)候我們需要獲取登錄后的頁(yè)面數(shù)據(jù)。
這個(gè)時(shí)候可能需要請(qǐng)求是攜帶登錄cookie信息。返回后的body對(duì)象通過(guò)cheerio.load之后就能拿到一個(gè)類(lèi)似jquery的文檔對(duì)象。
后面就可以很方便的使用jquery的dom操作方式去拿到頁(yè)面內(nèi)自己想要的數(shù)據(jù)了。

數(shù)據(jù)寫(xiě)入到excel中。
五、結(jié)果


總結(jié)
- Node.js?實(shí)現(xiàn)簡(jiǎn)單爬蟲(chóng)的示例代碼
- node.js做一個(gè)簡(jiǎn)單的爬蟲(chóng)案例教程
- 手把手教你用Node.js爬蟲(chóng)爬取網(wǎng)站數(shù)據(jù)的方法
- 淺談Node.js爬蟲(chóng)之網(wǎng)頁(yè)請(qǐng)求模塊
- 從零學(xué)習(xí)node.js之簡(jiǎn)易的網(wǎng)絡(luò)爬蟲(chóng)(四)
- 利用Node.js制作爬取大眾點(diǎn)評(píng)的爬蟲(chóng)
- Node.js環(huán)境下編寫(xiě)爬蟲(chóng)爬取維基百科內(nèi)容的實(shí)例分享
- Node.js編寫(xiě)爬蟲(chóng)的基本思路及抓取百度圖片的實(shí)例分享
- Node.js分布式爬蟲(chóng)的架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)(從安裝到存儲(chǔ)實(shí)戰(zhàn))
相關(guān)文章
使用?Node.js和Express搭建服務(wù)器的過(guò)程步驟詳解
Node.js?是一個(gè)開(kāi)源、跨平臺(tái)的?JavaScript?運(yùn)行時(shí)環(huán)境,這篇文章主要介紹了如何使用?Node.js和Express搭建服務(wù)器,需要的朋友可以參考下2023-09-09
node.js中的favicon.ico請(qǐng)求問(wèn)題處理
本文記錄了在項(xiàng)目中使用node.js請(qǐng)求favican.ico的時(shí)候會(huì)出現(xiàn)2條請(qǐng)求,浪費(fèi)資源,經(jīng)過(guò)一番改進(jìn),記錄下來(lái)過(guò)程,以后注意。2014-12-12
Nodejs腳本快速導(dǎo)出MySQL數(shù)據(jù)庫(kù)數(shù)據(jù)
在數(shù)據(jù)庫(kù)管理和數(shù)據(jù)遷移的過(guò)程中,常常需要將數(shù)據(jù)庫(kù)中的表數(shù)據(jù)和結(jié)構(gòu)進(jìn)行導(dǎo)出,本文將使用Node.js編寫(xiě)一個(gè)腳本實(shí)現(xiàn)快速?gòu)腗ySQL數(shù)據(jù)庫(kù)中導(dǎo)出所有表的數(shù)據(jù)和結(jié)構(gòu),并保存為單獨(dú)的SQL文件,需要的可以參考下2024-10-10
nodejs對(duì)mongodb數(shù)據(jù)庫(kù)的增加修刪該查實(shí)例代碼
在本篇文章里小編給大家整理的是一篇關(guān)于nodejs對(duì)mongodb數(shù)據(jù)庫(kù)的增加修刪該查實(shí)例代碼,有需要的朋友們可以參考下。2020-01-01
nodejs服務(wù)內(nèi)存泄露排查過(guò)程和優(yōu)化方法
在開(kāi)發(fā)和部署Node.js應(yīng)用程序時(shí),內(nèi)存泄露是一個(gè)常見(jiàn)的挑戰(zhàn),本文將探討如何對(duì)于一個(gè)陌生項(xiàng)目進(jìn)行內(nèi)存排查和優(yōu)化的方法,文章通過(guò)圖文介紹的非常詳細(xì),需要的朋友可以參考下2023-11-11
優(yōu)化Node.js Web應(yīng)用運(yùn)行速度的10個(gè)技巧
這篇文章主要介紹了優(yōu)化Node.js Web應(yīng)用運(yùn)行速度的10個(gè)技巧,本文講解了從并行、異步、緩存、gzip 壓縮、客戶端渲染等等技巧,需要的朋友可以參考下2014-09-09
如何設(shè)置process.env.NODE_ENV生產(chǎn)環(huán)境模式
process.env.NODE_ENV默認(rèn)只有兩種狀態(tài)即development和production,本文主要介紹了process.env.NODE_ENV設(shè)置生產(chǎn)環(huán)境模式,感興趣的可以了解一下2021-09-09

