云数据采集系统中云爬虫子系统的设计与实现
优采云 发布时间: 2020-08-09 00:55[摘要]: 随着Internet的迅猛发展和数据挖掘技术的发展,Internet上网页数据的价值日益突出. 现有的网络爬虫技术的缺点是不易于使用并且不容易为网络数据采集定制. 本文将云计算技术和Web爬虫技术相结合,基于软件即服务(SaaS)服务模型,设计并实现了云数据采集系统中的云爬虫子系统. 不同的用户可以根据自己的需求,方便地在云采集器子系统提供的独立采集器集群服务上执行数据采集任务. 为了实现分布式爬虫和SaaS模型的有机结合,本文主要研究云爬虫子系统中的两个关键问题: 爬虫节点管理和链接抓取任务调度. 在爬虫节点管理方面,提出了一种在etcd的辅助下的爬虫节点管理方案,该方案规定了子系统中所有爬虫节点的一系列共同行为,以便每个集群的爬虫节点可以混合部署. 互相替换. 该解决方案支持在运行时更新采集器节点配置,支持在运行时为每个采集器集群动态增加或减少节点,以及及时检测集群故障节点,以确保采集器集群服务的可靠性. 在链路爬取任务调度方面,提出了一种基于跳跃一致性哈希算法的改进的调度方案OJCH. OJCH使用跳转一致性哈希算法来计算节点,并获得与跳转一致性算法相似的性能,并使用重新哈希故障节点的方法来克服跳转一致性哈希无法处理任何节点故障的缺点. 已通过实验验证. 此外,本文还提出了一种支持定期链接提取任务的重复数据删除方案. 之后,本文给出了云爬虫子系统的总体设计方案以及每个功能模块的详细设计和实现,包括集群控制模块,网站服务模块,任务队列模块,任务调度模块,任务处理模块和节点管理模块. . 然后根据相关的测试案例对已实现的云爬虫子系统进行测试,并对云爬虫子系统的功能进行验证. 最后,总结全文.