利用node.js寫一個爬取知乎妹紙圖的小爬蟲
前言
說起寫node爬蟲的原因,真是羞羞呀。一天,和往常一樣,晚上吃過飯便刷起知乎來,首頁便是推薦的你見過最漂亮的女生長什么樣?,點(diǎn)進(jìn)去各種漂亮的妹紙爆照?。?!!,看的我好想把這些好看的妹紙照片都存下來啊!一張張點(diǎn)擊保存,就在第18張得時候,突然想起。我特么不是程序員么,這種手動做的事,怎么能做,不行我不能丟程序員的臉了,于是便開始這次爬蟲之旅。
原理
初入爬蟲的坑,沒有太多深奧的理論知識,要獲取知乎上帖子中的一張圖片,我把它歸結(jié)為以下幾步。
- 準(zhǔn)備一個url(當(dāng)然是諸如你見過最漂亮的女生長什么樣???)
- 獲取這個url的html內(nèi)容,并分析其中的dom結(jié)構(gòu),遍歷找到這些漂亮的妹紙圖片url
- 獲取圖片內(nèi)容
- 將圖片內(nèi)容寫入本地文件
開始動手
大概知道原理之后我們就可以開干了
準(zhǔn)備一個url
這個最簡單了,去知乎隨便一搜就是一大把,我們以
為例子,先來分析一下這個頁面的dom結(jié)構(gòu),其實(shí)很簡單,知乎的一個頁面中會包含很多種類型的圖片,有頭像,用戶評價上傳的圖片啥的?;旧显趎oscript種都可以找到對應(yīng)的圖片地址。

獲取這個url的html內(nèi)容,并且拿到當(dāng)前頁面noscript中的img鏈接
這一步我們需要會點(diǎn)簡單的nodejs的知識,以及用到一個庫叫cheerio,這個庫具體是用來做什么的,詳細(xì)請移步cheerio。
簡單來說就是可以在命令行中使用jQuery來搜索遍歷獲取相應(yīng)的元素。
那么怎樣才能獲取這個帖子的html呢
使用nodejs的https模塊
var https = require('https')
getAllHtml (url, callback) {
let sHtml = '',
_this = this;
https.get(url, (res) => {
res.on('data', (data) => {
sHtml += data;
});
res.on('end', () => {
callback.bind(_this, sHtml)();
})
}).on('error', (err) => {
console.log(err);
});
}通過以上操作拿到網(wǎng)站的html之后,便是遍歷出我們需要的圖片地址來了
filterHtml (sHtml, filePath) {
let $ = cheerio.load(sHtml), // 將上一步拿到的網(wǎng)站html傳入cheerio.load,便得到類似于包裝過的jQuery對象,可以像jQuey的選擇器一樣來選擇元素
$Imgs = $('noscript img'),
imgData = [],
_this = this;
$Imgs.each((i, e) => {
let imgUrl = $(e).attr('src'); //取出對應(yīng)的url
imgData.push(imgUrl);
// 將url傳入開始下載
_this.downloadImg(imgUrl, _this.filePath,
function (err) {
console.log(imgUrl + 'has be down');
});
});
console.log(imgData);
}有了圖片的url,如何下載到本地呢?
我們需要使用request這個庫,簡單的調(diào)用一下api再結(jié)合node原生寫文件的api。
downloadImg (imgUrl, filePath, callback) {
let fileName = this.parseFileName(imgUrl);
request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback);
}到這里就大功告成了,是不是很簡單!!!已經(jīng)將源碼上傳,歡迎大家下載查看。
gitHub地址:https://github.com/qianlongo/node-small-crawler
本地下載地址:http://xiazai.jb51.net/201705/yuanma/node-small-crawler(jb51.net).rar
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家學(xué)習(xí)或者使用node.js能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
Node.js?中的?module.exports?與?exports區(qū)別介紹
這篇文章主要介紹了Node.js中的module.exports與exports區(qū)別介紹,每個模塊中都有module對象,存放了當(dāng)前模塊相關(guān)的信息,更多相關(guān)內(nèi)容需要的朋友可以參考一下2022-09-09
在Node.js中使用Express框架和Mongoose庫實(shí)現(xiàn)視頻評論功能
本文我們將詳細(xì)介紹如何在Node.js應(yīng)用中使用Express框架和Mongoose庫來實(shí)現(xiàn)一個視頻評論功能,這個功能允許用戶對視頻內(nèi)容添加評論,并將評論數(shù)實(shí)時更新,以下是逐步的實(shí)現(xiàn)過程,包括代碼示例和說明,需要的朋友可以參考下2024-04-04
Node.js處理I/O數(shù)據(jù)之使用Buffer模塊緩沖數(shù)據(jù)
這篇文章介紹了Node.js使用Buffer模塊緩沖數(shù)據(jù)的方法,文中通過示例代碼介紹的非常詳細(xì)。對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-07-07
使用DNode實(shí)現(xiàn)php和nodejs之間通信的簡單實(shí)例
這篇文章主要介紹了使用DNode實(shí)現(xiàn)php和nodejs之間通信的簡單實(shí)例,本文講解了DNode的安裝,以及使用的它的步驟和方法,需要的朋友可以參考下2015-07-07
使用基于Node.js的構(gòu)建工具Grunt來發(fā)布ASP.NET MVC項(xiàng)目
這篇文章主要介紹了使用基于Node.js的構(gòu)建工具Grunt來發(fā)布ASP.NET MVC項(xiàng)目的教程,自動化構(gòu)建工具Grunt具有編譯壓縮單元測試等功能,十分強(qiáng)大,需要的朋友可以參考下2016-02-02

