js 爬虫抓取网页数据(NEOCrawler、redis、phantomjs实现的爬虫系统的各个子系统)

优采云 发布时间: 2021-09-23 15:54

  js 爬虫抓取网页数据(NEOCrawler、redis、phantomjs实现的爬虫系统的各个子系统)

  neocrawler(中文名:牛),是nodejs,redis,phantomjs实现的爬行动物系统。代码是完全开源的,适用于垂直字段中的数据采集和爬行动物。

  [主要功能]

  可配置项目:

  1)。使用正则表达式描述,使用相同的规则将类似的网页分类为类。爬行动物系统(以下是指某种类型的URL可配置项目);

  2)。起始地址,爬网方法,存储位置,页面处理等。

  3)。需要采集的链路规则,使用CSS选择器定义爬行动物,只能采集页面中的位置中的链接;

  3)。页面选择规则,您可以使用CSS选择器,正则表达式来定位每个字段的位置以提取;

  4)。在打开页面后打开执行的JS语句的预测;

  5)。页面预设饼干;

  。

  6)判断类网页是否返回正常规则通常在关键词 let爬行动物检测的不可避免存在后指定返回到正常的网页;

  7)。评估数据提取是一个完整的规则,在提取物中选择一些非常必要的字段作为完整的评估标准;

  8)。此类网页(优先级)的调度权重(优先级),并在试剂后重新捕获更新。

  [架构]

  提示:_推荐用户跳跃架构文档直接进入第2部分,首先运行系统,存在对架构的归纳理解,如果您需要进行深入开发,请仔细阅读此链接_

  整体架构

  

  图中的*敏*感*词*部分是爬行动物系统的各个子系统。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线