分布式爬虫与SaaS模式有机结合,节点管理方案

优采云 发布时间: 2021-02-24 08:04

  分布式爬虫与SaaS模式有机结合,节点管理方案

  随着Internet和数据挖掘技术的飞速发展,Internet上网页数据的价值日益突出。现有的Web爬网程序技术具有以下缺点:不易使用且不易于为网页数据进行自定义采集。本文将云计算技术和Web爬虫技术相结合,基于软件即服务(SaaS)服务模型,设计并实现了云数据采集系统中的云爬虫子系统。不同的用户可以根据自己的需求,在由云采集器子系统提供的独立采集器群集服务上方便地执行数据采集任务。为了实现分布式爬虫和SaaS模型的有机结合,本文主要研究云爬虫子系统中的两个关键问题:爬虫节点管理和链接抓取任务调度。在爬虫节点管理方面,提出了一种在etcd的辅助下的爬虫节点管理方案,该方案规定了子系统中所有爬虫节点的一系列常见行为,从而可以混合部署每个集群的爬虫节点。互相替换。该解决方案支持在运行时更新采集器节点配置,在运行时支持每个采集器集群的节点动态增加或减少,以及及时检测集群故障节点,以确保采集器集群服务的可靠性。在链路提取任务调度方面,提出了一种基于跳跃一致性哈希算法的改进的调度方案OJCH。 OJCH使用跳转一致性哈希算法来计算节点,并获得与跳转一致性算法相似的性能,并使用重新哈希故障节点的方法来克服跳转一致性哈希无法处理任何节点故障的缺点。已通过实验验证。此外,本文还提出了一种支持周期性链接提取任务的重复数据删除方案。从那时起,本文将介绍云采集器子系统的总体设计以及每个功能模块的详细设计和实现,其中包括集群控制模块,网站服务模块,任务队列模块,任务调度模块,任务处理模块和节点管理模块 。然后根据相关测试案例对已实现的云爬虫子系统进行测试,并对云爬虫子系统的功能进行验证。最后,全文进行了总结。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线