云端 自动 采集(1.一种利用云端进行并发采集的爬虫实现方法(图))

优采云 发布时间: 2021-10-14 20:02

  云端 自动 采集(1.一种利用云端进行并发采集的爬虫实现方法(图))

  技术特点:

  1.一种利用云端进行并发的爬虫实现方法采集,其特征在于包括一个爬虫终端和若干个云节点服务器终端。实施过程如下:

  1)爬虫终端通过云节点服务器执行采集,爬虫向云节点服务器批量发送采集任务,通过验证和请求处理实现云节点服务器任务分发;

  2) 云节点服务器进行状态检测,实时检测云节点服务器的可用状态以及任务队列和下载队列的队列状态,并根据情况选择是立即发送任务还是接收网页云节点服务器的情况;

  3) 爬虫端将本地数据库的配置同步到云节点服务器;

  4) 云节点服务器网页接收到,爬虫向云节点服务器请求下载页面,云节点服务器批量返回下载页面;

  5) 爬虫端实现下载任务的异常容错处理和事务控制,通过本地缓存和数据实现异常容错处理,保证网页不丢失。

  2.根据权利要求1所述的一种基于云端并发采集的爬虫实现方法,其特征在于,所述步骤1)的具体流程为:

  爬虫终端从下载任务生产者处接收下载任务,是数据库中待下载的数据或消息队列中待下载的数据;

  爬虫端定时将已有的任务配置同步到云节点服务器,云节点服务器按照规则进行间隔下载;

  爬虫定期检查所有云节点服务器的状态,选择可用并发任务队列数小于排队阈值的云节点服务器;

  爬虫端将任务均匀地发送到云节点服务器端,并将发送的信息记录回本地缓存和数据库。

  3.根据权利要求2所述的一种利用云端进行并发的爬虫实现方法采集,其特征在于,爬虫终端定期检查云端节点服务器的状态,通过tcp或http查看数据,查看云端的可用状态、现有任务配置数、待下载任务数、下载网页数以及状态等值都缓存在本地。

  4.根据权利要求1所述的一种利用云端进行并发采集的爬虫实现方法,其特征在于,步骤3)中的同步配置是指爬虫终端从数据库中加载任务配置,并推送到云节点服务器,实时检查云节点服务器配置和爬虫端是否相同,如果不同则全部同步一次。

  5.根据权利要求1所述的一种利用云端进行并发采集的爬虫实现方法,其特征在于,步骤2)和步骤4)中的网页接收是指爬虫定期检查云端下载网页的数量,当下载网页数量超过指定阈值时,立即采集云端网页。

  6.根据权利要求5所述的一种利用云端进行并发采集的爬虫实现方法,其特征在于,所述步骤4)的具体过程为:

  爬虫终端定期检查云节点服务器上的下载网页数量,当下载网页数量超过下载阈值时,从云节点采集下载的网页,并清除存储在云节点上的网页;

  爬虫终端定期从云节点服务器获取下载的网页队列中的网页数据,收到网页后根据关键字段删除本地缓存和数据库中记录的备份信息。此处的关键字段包括任务 ID 和 URL。

  7.根据权利要求1所述的一种利用云端进行并发采集的爬虫实现方法,其特征在于,步骤5)中的容错处理是指爬虫侧缓存和数据库记录双重保证,同时在云端和爬虫端进行容错。即通过本地缓存和数据库记录任务发送历史,并将接收到的网页与发送历史进行比较。一定时间内未下载的网页视为下载失败,重复下载。头发护理。

  8.根据权利要求7所述的一种利用云端进行并发采集的爬虫实现方法,其特征在于,所述步骤5)的具体过程为:

  爬虫终端每次启动时查询数据库中的任务备份信息,对未下载的任务进行恢复;并且爬虫终端会定期检查本地缓存。当任务加入缓存的时间超过下载时长阈值时,认为下载失败并重新启动下载任务。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线