nodejs抓取动态网页(通过使用node.js我试图抓取一个网页(图))
优采云 发布时间: 2022-04-04 14:14nodejs抓取动态网页(通过使用node.js我试图抓取一个网页(图))
通过使用 node.js,我正在尝试抓取网页。为此,我使用cheerio 和 tinyreq 模块。我的源代码如下:
// scrape function
function scrape(url, data, cb) {
req(url, (err, body) => {
if (err) { return cb(err); }
let $ = cheerio.load(body)
, pageData = {};
Object.keys(data).forEach(k => {
pageData[k] = $(data[k]).text();
});
cb(null, pageData);
});
}
scrape("https://www.activecubs.com/activity-wheel/", {
title: ".row h1"
, description: ".row h2"
}, (err, data) => {
console.log(err || data);
});
在我的代码中,h1 标签中的文本是静态的,而在 h2 标签中它是动态的。当我运行代码时,我只得到静态数据,即描述字段数据为空。从以前的 StackOverflow 问题中,我尝试使用 phantom j 来克服这个问题,但它对我不起作用。这里的动态数据是通过转动轮子得到的数据。对于我正在使用的 网站 的任何查询,您可以查看它。