Nodejs爬蟲進(jìn)階教程之異步并發(fā)控制

更新時間：2016年02月15日 09:52:53 作者：免罪體質(zhì)者

這篇文章主要介紹了Nodejs爬蟲進(jìn)階教程之異步并發(fā)控制的相關(guān)資料,需要的朋友可以參考下

之前寫了個現(xiàn)在看來很不完美的小爬蟲，很多地方?jīng)]有處理好，比如說在知乎點開一個問題的時候，它的所有回答并不是全部加載好了的，當(dāng)你拉到回答的尾部時，點擊加載更多，回答才會再加載一部分，所以說如果直接發(fā)送一個問題的請求鏈接，取得的頁面是不完整的。還有就是我們通過發(fā)送鏈接下載圖片的時候，是一張一張來下的，如果圖片數(shù)量太多的話，真的是下到你睡完覺它還在下，而且我們用nodejs寫的爬蟲，卻竟然沒有用到nodejs最牛逼的異步并發(fā)的特性，太浪費了啊。

思路

這次的的爬蟲是上次那個的升級版，不過呢，上次那個雖然是簡單，但是很適合新手學(xué)習(xí)啊。這次的爬蟲代碼在我的github上可以找到=>NodeSpider。

整個爬蟲的思路是這樣的：在一開始我們通過請求問題的鏈接抓取到部分頁面數(shù)據(jù)，接下來我們在代碼中模擬ajax請求截取剩余頁面的數(shù)據(jù)，當(dāng)然在這里也是可以通過異步來實現(xiàn)并發(fā)的，對于小規(guī)模的異步流程控制，可以用這個模塊=>eventproxy，但這里我就沒有用啦！我們通過分析獲取到的頁面從中截取出所有圖片的鏈接，再通過異步并發(fā)來實現(xiàn)對這些圖片的批量下載。

抓取頁面初始的數(shù)據(jù)很簡單啊，這里就不做多解釋啦

/*獲取首屏所有圖片鏈接*/
var getInitUrlList=function(){
request.get("https://www.zhihu.com/question/")
.end(function(err,res){
if(err){
console.log(err);
}else{
var $=cheerio.load(res.text);
var answerList=$(".zm-item-answer");
answerList.map(function(i,answer){
var images=$(answer).find('.zm-item-rich-text img');
images.map(function(i,image){
photos.push($(image).attr("src"));
});
});
console.log("已成功抓取"+photos.length+"張圖片的鏈接");
getIAjaxUrlList();
}
});
}

模擬ajax請求獲取完整頁面

接下來就是怎么去模擬點擊加載更多時發(fā)出的ajax請求了，去知乎看一下吧！

有了這些信息，就可以來模擬發(fā)送相同的請求來獲得這些數(shù)據(jù)啦。

/*每隔毫秒模擬發(fā)送ajax請求，并獲取請求結(jié)果中所有的圖片鏈接*/
var getIAjaxUrlList=function(offset){
request.post("https://www.zhihu.com/node/QuestionAnswerListV")
.set(config)
.send("method=next&params=%B%url_token%%A%C%pagesize%%A%C%offset%%A" +offset+ "%D&_xsrf=adfdeee")
.end(function(err,res){
if(err){
console.log(err);
}else{
var response=JSON.parse(res.text);/*想用json的話對json序列化即可，提交json的話需要對json進(jìn)行反序列化*/
if(response.msg&&response.msg.length){
var $=cheerio.load(response.msg.join(""));/*把所有的數(shù)組元素拼接在一起，以空白符分隔，不要這樣join()，它會默認(rèn)數(shù)組元素以逗號分隔*/
var answerList=$(".zm-item-answer");
answerList.map(function(i,answer){
var images=$(answer).find('.zm-item-rich-text img');
images.map(function(i,image){
photos.push($(image).attr("src"));
});
});
setTimeout(function(){
offset+=;
console.log("已成功抓取"+photos.length+"張圖片的鏈接");
getIAjaxUrlList(offset);
},);
}else{
console.log("圖片鏈接全部獲取完畢，一共有"+photos.length+"條圖片鏈接");
// console.log(photos);
return downloadImg();
}
}
});
}

在代碼中post這條請求https://www.zhihu.com/node/QuestionAnswerListV2，把原請求頭和請求參數(shù)復(fù)制下來，作為我們的請求頭和請求參數(shù)，superagent的set方法可用來設(shè)置請求頭，send方法可以用來發(fā)送請求參數(shù)。我們把請求參數(shù)中的offset初始為20，每隔一定時間offset再加20，再重新發(fā)送請求，這樣就相當(dāng)于我們每隔一定時間發(fā)送了一條ajax請求，獲取到最新的20條數(shù)據(jù)，每獲取到了數(shù)據(jù)，我們再對這些數(shù)據(jù)進(jìn)行一定的處理，讓它們變成一整段的html，便于后面的提取鏈接處理。異步并發(fā)控制下載圖片再獲取完了所有的圖片鏈接之后，即判定response.msg為空時，我們就要對這些圖片進(jìn)行下載了，不可能一條一條下對不對，因為如你所看到的，我們的圖片足足有

沒錯，2萬多張，不過幸好nodejs擁有神奇的單線程異步特性，我們可以同時對這些圖片進(jìn)行下載。但這個時候問題來了，聽說同時發(fā)送請求太多的話會被網(wǎng)站封ip噠！這是真的嗎？我不知道啊，沒試過，因為我也不想去試(￣ー￣〃)，所以這個時候我們就需要對異步并發(fā)數(shù)量進(jìn)行一些控制了。

在這里用到了一個神奇的模塊=>async，它不僅能幫我們拜托難以維護(hù)的回調(diào)金字塔惡魔，還能輕松的幫我們進(jìn)行異步流程的管理。具體看文檔啦，因為我自己也不怎么會用，這里就只用到了一個強(qiáng)大的async.mapLimit方法。真的很厲害哦。

var requestAndwrite=function(url,callback){
request.get(url).end(function(err,res){
if(err){
console.log(err);
console.log("有一張圖片請求失敗啦...");
}else{
var fileName=path.basename(url);
fs.writeFile("./img/"+fileName,res.body,function(err){
if(err){
console.log(err);
console.log("有一張圖片寫入失敗啦...");
}else{
console.log("圖片下載成功啦");
callback(null,"successful !");
/*callback貌似必須調(diào)用，第二個參數(shù)將傳給下一個回調(diào)函數(shù)的result，result是一個數(shù)組*/
}
});
}
});
}
var downloadImg=function(asyncNum){
/*有一些圖片鏈接地址不完整沒有“http:”頭部,幫它們拼接完整*/
for(var i=;i<photos.length;i++){
if(photos[i].indexOf("http")===-){
photos[i]="http:"+photos[i];
}
}
console.log("即將異步并發(fā)下載圖片，當(dāng)前并發(fā)數(shù)為:"+asyncNum);
async.mapLimit(photos,asyncNum,function(photo,callback){
console.log("已有"+asyncNum+"張圖片進(jìn)入下載隊列");
requestAndwrite(photo,callback);
},function(err,result){
if(err){
console.log(err);
}else{
// console.log(result);<=會輸出一個有萬多個“successful”字符串的數(shù)組
console.log("全部已下載完畢！");
}
});
};

先看這里=>

mapLimit方法的第一個參數(shù)photos是所有圖片鏈接的數(shù)組，也是我們并發(fā)請求的對象，asyncNum是限制并發(fā)請求的數(shù)量，如果沒有這個參數(shù)的話，將會有同時兩萬多條請求發(fā)送過去，嗯，你的ip就會被成功的封掉，但當(dāng)我們有這個參數(shù)時，比如它的值是10，則它一次就只會幫我們從數(shù)組中取10條鏈接，執(zhí)行并發(fā)的請求，這10條請求都得到響應(yīng)后，再發(fā)送下10條請求。告訴泥萌，并發(fā)到同時100條沒有事的，下載速度超級快，再往上就不知道咯，你們來告訴我...

以上所述給大家介紹了Nodejs爬蟲進(jìn)階教程之異步并發(fā)控制的相關(guān)知識，希望對大家有所幫助。

您可能感興趣的文章: