网页新闻抓取(说到底及服务端地址结构目录结构方案分析(闲情))

优采云 发布时间: 2021-11-21 00:01

  网页新闻抓取(说到底及服务端地址结构目录结构方案分析(闲情))

  前言

  一直喜欢看科技新闻,在cnBeta混了很多年。以前,西贝的评论区是匿名的,所以评论区很活跃,各种喷子和笑话,但确实很开心。可以说是西贝的人气了。最繁华的时候。但自去年国家网信办发布《互联网评论服务管理规定》,要求实名制用户留言和评论后,原本活跃的评论区瞬间下滑,人气一落千丈。 . 事实上,归根结底,西贝并没有跟上移动互联网的潮流。它仍然停留在PC互联网时代。网络广告太多了。然而,手机应用质量堪忧,体验极差。虽然有很多第三方应用,但由于没有官方支持,体验上还是不够好。例如,如果某些版本正式发布,第三方应用程序将基本挂掉。

  所以为了方便看cnBeta的新闻,我打算用爬虫把cnBeta的新闻爬下来,搭建一个自建m站,让体验可控,没有广告(`∀´)Ψ . 其实这个项目很早就完成了,不过现在有时间写一篇文章分享一下。

  概述

  本项目的爬虫和服务器github地址:

  前端github地址:

  技术细节目录结构

  目录结构

  ├── bin // 入口

│  ├── article-list.js // 抓取新闻列表逻辑

│  ├── content.js // 抓取新闻内容逻辑

│  ├── server.js // 服务端程序入口

│  └── spider.js // 爬虫程序入口

├── config // 配置文件

├── dbhelper // 数据库操作方法目录

├── middleware // koa2 中间件

├── model // mongoDB 集合操作实例

├── router // koa2 路由文件

├── utils // 工具函数

├── package.json

  案例分析

  首先看爬虫程序的入口文件。整体逻辑其实很简单。先抓取新闻列表,存入MongoDB数据库,每十分钟抓取一次。获取新闻列表后,查询数据库中列表中没有新闻内容的新闻,开始获取新闻详情,然后更新到数据库中。

  const articleListInit = require('./article-list');

const articleContentInit = require('./content');

const logger = require('../config/log');

const start = async() => {

let articleListRes = await articleListInit();

if (!articleListRes) {

logger.warn('news list update failed...');

} else {

logger.info('news list update succeed!');

}

let articleContentRes = await articleContentInit();

if (!articleContentRes) {

logger.warn('article content grab error...');

} else {

logger.info('article content grab succeed!');

}

};

if (typeof articleListInit === 'function') {

start();

}

setInterval(start, 600000);

  接下来看一下抓取新闻列表的逻辑。因为可以获取新闻列表的Ajax接口,所以可以直接调用该接口获取列表信息。但也有一个问题。cnBeta新闻列表的缩略图和文章中的图片是防盗链的,所以你的网站中的图片不能直接使用,所以我直接爬下cnBeta图片文件并保存它在你自己的服务器上。

  /**

* 初始化方法 抓取文章列表

* @returns {Promise.}

*/

const articleListInit = async() => {

logger.info('grabbing article list starts...');

const pageUrlList = getPageUrlList(listBaseUrl, totalPage);

if (!pageUrlList) {

return;

}

let res = await getArticleList(pageUrlList);

return res;

}

/**

* 利用分页接口获取文章列表

* @param pageUrlList

* @returns {Promise}

*/

const getArticleList = (pageUrlList) => {

return new Promise((resolve, reject) => {

async.mapLimit(pageUrlList, 1, (pageUrl, callback) => {

getCurPage(pageUrl, callback);

}, (err, result) => {

if (err) {

logger.error('get article list error...');

logger.error(err);

reject(false);

return;

}

let articleList = _.flatten(result);

downloadThumbAndSave(articleList, resolve);

})

})

};

/**

* 获取当前页面的文章列表

* @param pageUrl

* @param callback

* @returns {Promise.}

*/

const getCurPage = async(pageUrl, callback) => {

let num = Math.random() * 1000 + 1000;

await sleep(num);

request(pageUrl, (err, response, body) => {

if (err) {

logger.info('current url went wrong,url address:' + pageUrl);

callback(null, null);

return;

} else {

let responseObj = JSON.parse(body);

if (responseObj.result && responseObj.result.list) {

let newsList = parseObject(articleModel, responseObj.result.list, {

pubTime: 'inputtime',

author: 'aid',

commentCount: 'comments',

});

callback(null, newsList);

return;

}

console.log("出错了");

callback(null, null);

}

});

};

const downloadThumbAndSave = (list, resolve) => {

const host = 'https://static.cnbetacdn.com';

const basepath = './public/data';

if (list.indexOf(null) > -1) {

resolve(false);

} else {

try {

async.eachSeries(list, (item, callback) => {

let thumb_url = item.thumb.replace(host, '');

item.thumb = thumb_url;

if (!fs.exists(thumb_url)) {

mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {

request

.get({

url: host + thumb_url,

})

.pipe(fs.createWriteStream(path.join(basepath, thumb_url)))

.on('error', (err) => {

console.log("pipe error", err);

});

callback(null, null);

});

}

}, (err, result) => {

if (!err) {

saveDB(list, resolve);

}

});

}

catch(err) {

console.log(err);

}

}

};

/**

* 将文章列表存入数据库

* @param result

* @param callback

* @returns {Promise.}

*/

const saveDB = async(result, callback) => {

//console.log(result);

let flag = await dbHelper.insertCollection(articleDbModel, result).catch(function (err){

logger.error('data insert falied');

});

if (!flag) {

logger.error('news list save failed');

} else {

logger.info('list saved!total:' + result.length);

}

if (typeof callback === 'function') {

callback(true);

}

};

  我们来看看抓取新闻内容的逻辑。这里我们直接根据新闻sid获取新闻内容页面的html,然后使用cheerio库分析得到我们需要的新闻内容。当然,这里也是将文章中的图片爬下来保存到服务器,将数据库中存储的新闻内容中的图片链接替换为自己服务器中的URL。

  /**

* 抓取正文程序入口

* @returns {Promise.}

*/

const articleContentInit = async() => {

logger.info('grabbing article contents starts...');

let uncachedArticleSidList = await getUncachedArticleList(articleDbModel);

// console.log('未缓存的文章:'+ uncachedArticleSidList.join(','));

const res = await batchCrawlArticleContent(uncachedArticleSidList);

if (!res) {

logger.error('grabbing article contents went wrong...');

}

return res;

};

/**

* 查询新闻列表获取sid列表

* @param Model

* @returns {Promise.}

*/

const getUncachedArticleList = async(Model) => {

const selectedArticleList = await dbHelper.queryDocList(Model).catch(function (err){

logger.error(err);

});

return selectedArticleList.map(item => item.sid);

// return selectedArticleList.map(item => item._doc.sid);

};

/**

* 批量抓取新闻详情内容

* @param list

* @returns {Promise}

*/

const batchCrawlArticleContent = (list) => {

return new Promise((resolve, reject) => {

async.mapLimit(list, 3, (sid, callback) => {

getArticleContent(sid, callback);

}, (err, result) => {

if (err) {

logger.error(err);

reject(false);

return;

}

resolve(true);

});

});

};

/**

* 抓取单篇文章内容

* @param sid

* @param callback

* @returns {Promise.}

*/

const getArticleContent = async(sid, callback) => {

let num = Math.random() * 1000 + 1000;

await sleep(num);

let url = contentBaseUrl + sid + '.htm';

request(url, (err, response, body) => {

if (err) {

logger.error('grabbing article content went wrong,article url:' + url);

callback(null, null);

return;

}

const $ = cheerio.load(body, {

decodeEntities: false

});

const serverAssetPath = `${serverIp}:${serverPort}/data`;

let domainReg = new RegExp('https://static.cnbetacdn.com','g');

let article = {

sid,

source: $('.article-byline span a').html() || $('.article-byline span').html(),

summary: $('.article-summ p').html(),

content: $('.articleCont').html().replace(styleReg.reg, styleReg.replace).replace(scriptReg.reg, scriptReg.replace).replace(domainReg, serverAssetPath),

};

saveContentToDB(article);

let imgList = [];

$('.articleCont img').each((index, dom) => {

imgList.push(dom.attribs.src);

});

downloadImgs(imgList);

callback(null, null);

});

};

/**

* 下载图片

* @param list

*/

const downloadImgs = (list) => {

const host = 'https://static.cnbetacdn.com';

const basepath = './public/data';

if (!list.length) {

return;

}

try {

async.eachSeries(list, (item, callback) => {

let num = Math.random() * 500 + 500;

sleep(num);

if (item.indexOf(host) === -1) return;

let thumb_url = item.replace(host, '');

item.thumb = thumb_url;

if (!fs.exists(thumb_url)) {

mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {

request

.get({

url: host + thumb_url,

})

.pipe(fs.createWriteStream(path.join(basepath, thumb_url)))

.on("error", (err) => {

console.log("pipe error", err);

});

callback(null, null);

});

}

});

}

catch(err) {

console.log(err);

}

};

/**

* 保存到文章内容到数据库

* @param article

*/

const saveContentToDB = (item) => {

let flag = dbHelper.updateCollection(articleDbModel, item);

if (flag) {

logger.info('grabbing article content succeeded:' + item.sid);

}

};

  爬虫部分差不多就是这个样子。还有一点就是,你的服务器上每天都会存储数百张爬取的图片。随着时间的推移,图片占用的存储空间会特别大,所以需要定期清理,有兴趣的可以看看。查看项目中的 clear-expire.js 文件。

  总结

  其实这个项目虽然整体上并不复杂,但是在搭建一个前后端系统的过程中,我收获颇多。很多问题的解决需要自己的实践和思考,这也是性能优化的一个重要考虑。方面。

  下面的截图是我最终完成的m站。界面非常清爽,体验确实比cnBeta官网好很多。这样看科技新闻确实方便了很多。

  

  

  以上

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线