js 爬虫抓取网页数据(NEOCrawler、redis、phantomjs实现的爬虫系统的各个子系统)
优采云 发布时间: 2021-09-23 15:54js 爬虫抓取网页数据(NEOCrawler、redis、phantomjs实现的爬虫系统的各个子系统)
neocrawler(中文名:牛),是nodejs,redis,phantomjs实现的爬行动物系统。代码是完全开源的,适用于垂直字段中的数据采集和爬行动物。
[主要功能]
可配置项目:
1)。使用正则表达式描述,使用相同的规则将类似的网页分类为类。爬行动物系统(以下是指某种类型的URL可配置项目);
2)。起始地址,爬网方法,存储位置,页面处理等。
3)。需要采集的链路规则,使用CSS选择器定义爬行动物,只能采集页面中的位置中的链接;
3)。页面选择规则,您可以使用CSS选择器,正则表达式来定位每个字段的位置以提取;
4)。在打开页面后打开执行的JS语句的预测;
5)。页面预设饼干;
。
6)判断类网页是否返回正常规则通常在关键词 let爬行动物检测的不可避免存在后指定返回到正常的网页;
7)。评估数据提取是一个完整的规则,在提取物中选择一些非常必要的字段作为完整的评估标准;
8)。此类网页(优先级)的调度权重(优先级),并在试剂后重新捕获更新。
[架构]
提示:_推荐用户跳跃架构文档直接进入第2部分,首先运行系统,存在对架构的归纳理解,如果您需要进行深入开发,请仔细阅读此链接_
整体架构
图中的*敏*感*词*部分是爬行动物系统的各个子系统。