node?puppeteer爬蟲爬取電影網(wǎng)站及生成pdf文檔示例
引言
利用空閑時(shí)間,學(xué)習(xí)了下puppeteer爬蟲,我也想爬取下網(wǎng)上的資源
部分api
- puppeteer.launch(options)
| 參數(shù)名稱 | 參數(shù)類型 | 參數(shù)說明 |
|---|---|---|
| ignoreHTTPSErrors | boolean | 在請(qǐng)求的過程中是否忽略 Https 報(bào)錯(cuò)信息,默認(rèn)為 false |
| headless | boolean | 是否以“無頭”的模式運(yùn)行chrome,也就是不顯示UI,默認(rèn)為true |
| executablePath | string | 可執(zhí)行文件的路徑,Puppeteer 默認(rèn)是使用它自帶的 chrome webdriver, 如果你想指定一個(gè)自己的 webdriver 路徑,可以通過這個(gè)參數(shù)設(shè)置 |
| slowMo | number | 使 Puppeteer 操作減速,單位是毫秒。如果你想看看 Puppeteer 的整個(gè)工作過程,這個(gè)參數(shù)將非常有用 |
| args | Array(String) | 傳遞給 chrome 實(shí)例的其他參數(shù),比如你可以設(shè)置瀏覽器窗口大小具體參數(shù) |
| timeout | number | 等待chrome實(shí)例啟動(dòng)的最長(zhǎng)時(shí)間,默認(rèn)是3000ms,如果傳入0,則不限制時(shí)間 |
| dumpio | boolean | 是否將瀏覽器錦程stdout和stderr導(dǎo)入到process.stdout和process.stderr中,默認(rèn)為false |
| userDataDir | string | 設(shè)置用戶數(shù)據(jù)目錄,默認(rèn)linux是在~/.config目錄,window 默認(rèn)在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表當(dāng)前登錄的用戶名 |
| env | Object | 指定對(duì)chromium可見的環(huán)境變量,默認(rèn)為process.env |
| devtools | boolean | 是否為每個(gè)選項(xiàng)卡自動(dòng)打開DevTools面板,這個(gè)選項(xiàng)只有當(dāng)headless設(shè)置為false的時(shí)候有效 |
設(shè)置瀏覽器窗口大小具體參數(shù)
browser對(duì)象
| 方法名 | 說明 |
|---|---|
| browser.close() | 返回一個(gè)promise對(duì)象,用于關(guān)閉瀏覽器 |
| browser.newPage() | 返回一個(gè)promise對(duì)象,創(chuàng)建一個(gè)page實(shí)例 |
page對(duì)象
| 方法名 | 說明 |
|---|---|
| page.goto(url[, options]) | 返回一個(gè)promise對(duì)象,url是目標(biāo)鏈接 |
| page.waitForSelector() | 等待某個(gè)選擇器的元素加載之后,這個(gè)元素可以是異步加載的 |
| page.evaluate(pageFunction[,args]) | 返回一個(gè)可序列化的普通對(duì)象,pageFunction 表示要在頁(yè)面執(zhí)行的函數(shù), args 表示傳入給 pageFunction 的參數(shù) |
爬取電影網(wǎng)站
const puppeteer = require('puppeteer');
/* 爬蟲的目標(biāo)鏈接地址: 豆瓣電影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;
const sleep = time => new Promise(resolve => {
setTimeout(resolve, time);
});
(async () => {
console.log('crawler start to visit the target address');
/* dumpio 是否將瀏覽器進(jìn)程stdout和stderr導(dǎo)入到process.stdout和process.stderr中 */
const browser = await puppeteer.launch({
args: ['--no-sandbox'],
dumpio: false
});
const page = await browser.newPage();
await page.goto(url, {
waitUntil: 'networkidle2'
});
await sleep(3000);
await page.waitForSelector('.more');
for(let i = 0; i < 1; i++) {
await sleep(3000);
await page.click('.more');
}
const result = await page.evaluate(() => {
let $ = window.$;
let nodeItems = $('.list-wp a');
let links = [];
/* 獲取對(duì)應(yīng)的元素節(jié)點(diǎn) */
if(nodeItems.length >= 1) {
nodeItems.each((index, item) => {
let elem = $(item);
let movieId = elem.find('div').data('id');
let title = elem.find('.title').text();
let rate = Number(elem.find('.rate').text());
let poster = elem.find('img').attr('src').replace('s_ratio_poster','l_ratio_poster');
links.push({
movieId,
title,
rate,
poster,
})
})
}
return links;
});
browser.close();
console.log(result)
})();爬取網(wǎng)站內(nèi)容生成pdf文件
const puppeteer = require('puppeteer');
const url = 'https://cn.vuejs.org/v2/guide/';
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(url, { waitUntil: 'networkidle0' });
/* 選擇你要輸出的那個(gè)PDF文件路徑,把爬取到的內(nèi)容輸出到PDF中,必須是存在的PDF,可以是空內(nèi)容,如果不是空的內(nèi)容PDF,那么會(huì)覆蓋內(nèi)容 */
let pdfFilePath = './index.pdf';
/* 根據(jù)你的配置選項(xiàng),我們這里選擇A4紙的規(guī)格輸出PDF,方便打印 */
await page.pdf({
path: pdfFilePath,
format: 'A4',
scale: 1,
printBackground: true,
landscape: false,
displayHeaderFooter: false
});
browser.close();
})()正在努力學(xué)習(xí)中,希望你的學(xué)習(xí)有幫助
以上就是node puppeteer爬蟲爬取電影網(wǎng)站及生成pdf文檔示例的詳細(xì)內(nèi)容,更多關(guān)于node puppeteer爬蟲爬取的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Nodejs中Express 常用中間件 body-parser 實(shí)現(xiàn)解析
這篇文章主要介紹了Nodejs中Express 常用中間件 body-parser 實(shí)現(xiàn)解析,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-05-05
Node.js用readline模塊實(shí)現(xiàn)輸入輸出
在學(xué)C++的時(shí)候,有cout和cin,Java也有println和Scanner控件,Node.js也有如同C++和Java的標(biāo)準(zhǔn)輸入,當(dāng)然,是用JavaScript實(shí)現(xiàn)的,它就是Readline模塊。下面這篇文章就給大家詳細(xì)介紹一下readline模塊,來實(shí)現(xiàn)Node.js的控制臺(tái)輸入輸出。有需要的可以參考借鑒。2016-12-12
詳解nodejs解壓版安裝和配置(帶有搭建前端項(xiàng)目腳手架)
這篇文章主要介紹了詳解nodejs解壓版安裝和配置(帶有搭建前端項(xiàng)目腳手架) ,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2018-12-12
實(shí)時(shí)通信WebSocket的原理和工作過程
WebSocket持久連接使得服務(wù)器可以主動(dòng)向客戶端推送數(shù)據(jù),而不需要等待客戶端的請(qǐng)求,是一種專門設(shè)計(jì)用于實(shí)現(xiàn)持久連接的協(xié)議,WebSocket的持久連接特性使其成為實(shí)時(shí)性要求高的應(yīng)用的理想選擇,如在線聊天、實(shí)時(shí)游戲、數(shù)據(jù)監(jiān)控等2023-12-12
node.js 基于cheerio的爬蟲工具的實(shí)現(xiàn)(需要登錄權(quán)限的爬蟲工具)
這篇文章主要介紹了node.js 基于cheerio的爬蟲工具的實(shí)現(xiàn)(需要登錄權(quán)限的爬蟲工具) ,需要的朋友可以參考下2019-04-04
三分鐘教會(huì)你用nodejs操作mysql數(shù)據(jù)庫(kù)
MySQL數(shù)據(jù)庫(kù)作為最流行的開源數(shù)據(jù)庫(kù),基本上是每個(gè)web開發(fā)者必須要掌握的數(shù)據(jù)庫(kù)程序之一了,基本使用?node.js上,最受歡迎的mysql包就是mysql模塊,下面這篇文章主要給大家介紹了關(guān)于如何通過三分鐘教會(huì)你用nodejs操作mysql數(shù)據(jù)庫(kù),需要的朋友可以參考下2023-05-05
nodejs配置express服務(wù)器運(yùn)行自動(dòng)打開瀏覽器詳細(xì)步驟
在nodejs中使用express來搭建框架可以說是非常的簡(jiǎn)單方便,下面這篇文章主要給大家介紹了關(guān)于nodejs配置express服務(wù)器運(yùn)行自動(dòng)打開瀏覽器的相關(guān)資料,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下2024-01-01
node異步方法的異步調(diào)用與同步調(diào)用實(shí)現(xiàn)方法示例
這篇文章主要介紹了node異步方法的異步調(diào)用與同步調(diào)用實(shí)現(xiàn)方法,結(jié)合實(shí)例形式分析了node.js異步操作類的封裝以及同步、異步兩種調(diào)用方式,需要的朋友可以參考下2023-05-05

