js提取指定网站内容(.js,request和cheerio在我学校的课程表网站上抓取链接)
优采云 发布时间: 2022-04-18 11:01js提取指定网站内容(.js,request和cheerio在我学校的课程表网站上抓取链接)
我正在尝试使用 Node.js、request 和 Cheerio 来抓取我学校课程表上的链接网站。但是,我的代码并未到达所有主题链接。
此处链接到课程表网站。
这是我的代码:
var express = require('express');
var request = require('request');
var cheerio = require('cheerio');
var app = express();
app.get('/subjects', function(req, res) {
var URL = 'http://courseschedules.njit.edu/index.aspx?semester=2016s';
request(URL, function(error, response, body) {
if(!error) {
var $ = cheerio.load(body);
$('.courseList_section a').each(function() {
var text = $(this).text();
var link = $(this).attr('href');
console.log(text + ' --> ' + link);
});
}
else {
console.log('There was an error!');
}
});
});
app.listen('8080');
console.log('Magic happens on port 8080!');
我的输出可以在这里找到。
从我的输出中可以看出,缺少一些链接。更具体地说,来自“A”、“I(续)”和 R“(续)”部分的链接。这些也是每列的第一部分。
每个部分都收录在自己的 div 中,类名为“courseList_section”,所以我不明白为什么“.courseList_section a”没有遍历所有链接。我错过了一些明显的东西吗?非常感谢任何和所有见解。
提前谢谢你!