node.js爬取中關(guān)村的在線電瓶車信息
背景
學(xué)習(xí)nodejs已經(jīng)有段時間,網(wǎng)上很多nodejs爬蟲的文章,所以著手練習(xí)寫一段,最近打算買一輛電瓶車來上下班,但又不知道哪個好,網(wǎng)上是各說紛紜啊,于是就想著,干脆用node.js自己寫一個小爬蟲,來爬一下中關(guān)村在線里面電瓶車的信息吧。
簡介
該demo采用node.js作為爬蟲,為方便,有些地方使用es6語法,如有不懂,歡迎咨詢😊
步驟
第一步,引入需要的庫
var cheerio = require('cheerio');
var fetch = require('node-fetch');
// cheerio 是一個類似瀏覽器端的jQuery,用來解析HTML的
// fetch 用來發(fā)送請求
第二步,設(shè)置初始的爬取的入口(我身處杭州,所以地區(qū)選了杭州的🤣)
// 初始url var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc" // 由于每個a標(biāo)簽下是相對路徑,故需要一個根地址來拼接,如下 var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是為了防止有相同的而重復(fù)爬去 var urls = new Set() // 存儲所有數(shù)據(jù) var data = []
至此,我們的準(zhǔn)備部分結(jié)束了😅,接下來,開始表演了
分析網(wǎng)頁,思考爬取的方式

每行4款,每頁是48款,一共16頁
思路:
- 每次獲取當(dāng)前頁48個鏈接,并點進去之后,拿到該電瓶車的名稱和價格(其他信息獲取方式一樣,自行改就好😂)
- 第一頁的全部完成之后,翻到下一頁,繼續(xù)爬,直到最后一頁結(jié)束
首先我們定義一個函數(shù)如下
// 這是得到每個頁面的48個鏈接,并開始發(fā)送請求
function ad(arg){
// 參數(shù) arg 先不管
// 本地化一下需要爬取的鏈接
let url2 = arg || url;
// 請求第一頁該網(wǎng)頁,拿到數(shù)據(jù)之后,復(fù)制給 app
var app = await fetch(url2).then(res=>res.text())
// 然后假裝用jQuery解析了
var $ = cheerio.load(app)
// 獲取當(dāng)前頁所有電瓶車的a標(biāo)簽
var ele = $("#J_PicMode a.pic")
// 存放已經(jīng)爬取過的url,防止重復(fù)爬取
var old_urls = []
var urlapp = []
//拿到所有a標(biāo)簽地址之后,存在數(shù)組里面,等會兒要開始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一塊丟給promise處理
urlapp = await Promise.all(old_urls)
// 處理完成之后,循環(huán)加入jQuery😂
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此,一頁的數(shù)據(jù)就爬完了
// console.log(data);
// 然后開始爬取下一頁
var nextURL = $(".next").attr('href')
// 判斷當(dāng)前頁是不是最后一頁
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 獲取下一頁的標(biāo)簽,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()
完整代碼如下
var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = []
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
淺談node使用jwt生成的token應(yīng)該存在哪里
早上逛某乎的時候,遇到一位同學(xué)在問這個問題,很好奇jwt的存儲位置。本文詳細的介紹一下,感興趣的可以了解一下2021-06-06
前端node Session和JWT鑒權(quán)登錄示例詳解
關(guān)于前端鑒權(quán)登錄是比較常見的需求了,本文將從服務(wù)端渲染和前后端分離的不同角度下演示鑒權(quán),為大家介紹前端node Session和JWT鑒權(quán)登錄示例詳解2022-07-07

