js 爬虫抓取网页数据(NEOCrawler、redis、phantomjs实现的爬虫系统的各个子系统)

优采云发布时间: 2021-09-23 15:54

　　neocrawler（中文名：牛），是nodejs，redis，phantomjs实现的爬行动物系统。代码是完全开源的，适用于垂直字段中的数据采集和爬行动物。

　　[主要功能]

　　可配置项目：

　　1)。使用正则表达式描述，使用相同的规则将类似的网页分类为类。爬行动物系统（以下是指某种类型的URL可配置项目）;

　　2)。起始地址，爬网方法，存储位置，页面处理等。

　　3)。需要采集的链路规则，使用CSS选择器定义爬行动物，只能采集页面中的位置中的链接;

　　3)。页面选择规则，您可以使用CSS选择器，正则表达式来定位每个字段的位置以提取;

　　4)。在打开页面后打开执行的JS语句的预测;

　　5)。页面预设饼干;

　　。

　　6)判断类网页是否返回正常规则通常在关键词 let爬行动物检测的不可避免存在后指定返回到正常的网页;

　　7)。评估数据提取是一个完整的规则，在提取物中选择一些非常必要的字段作为完整的评估标准;

　　8)。此类网页（优先级）的调度权重（优先级），并在试剂后重新捕获更新。

　　[架构]

　　提示：_推荐用户跳跃架构文档直接进入第2部分，首先运行系统，存在对架构的归纳理解，如果您需要进行深入开发，请仔细阅读此链接_

　　整体架构

　　图中的*敏*感*词*部分是爬行动物系统的各个子系统。

0

2021-09-23

js 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册