智能采集平台(Web大数据采集系统的八个子系统)
优采云 发布时间: 2021-12-06 02:12智能采集平台(Web大数据采集系统的八个子系统)
天马网络大数据采集,是天马科技基于云计算开发的一款集分析、可视化为一体的强大的大数据采集平台。使用大量云计算服务器协同工作,可以快速采集海量数据,避免计算机硬件资源瓶颈。探索模拟人工智能的新一代智能采集器,解决传统邮政采集的技术难题,满足采集的高标准要求。
Web大数据采集系统的八个子系统
天马网大数据采集系统分为大数据集群系统、数据采集系统、采集数据源研究、数据爬虫系统、数据清洗系统、数据整合8个子系统系统、任务调度系统、搜索引擎系统。
大数据集群系统
本系统可以存储TB级别的采集数据,实现数据持久化。数据存储采用MongoDB集群方案,集群上有两大特点:
数据采集系统
本系统搭载Kapow、PhantomJS、Mechanize采集环境,运行在Docker容器中,由Rancher安排容器。
采集数据源研究
该系统是“数据爬虫系统”启动前不可缺少的环节。经过排查,发现页面需要采集,需要过滤的关键字,需要提取的内容。
数据爬虫系统
爬虫程序都是独立的个体,结合采集系统服务器需要的数据,由Rancher安排,在DigitalOcean中自动启动爬虫程序,根据输入的参数,抓取指定的数据,然后发回通过API大数据集群系统给我们。
数据清洗系统
本系统采用Ruby on Rails+Vue技术框架实现Web前端展示,展示爬虫程序抓取的数据,方便我们的清理。数据清洗系统主要由两部分组成:
数据整合系统
本系统采用Ruby on Rails+Vue技术框架,实现Web前端展示和数据合并。数据清洗后,数据合并系统会自动匹配大数据集群中的数据,通过熟人评分关联可能的熟人数据。匹配结果通过web前端展示,数据可以手动或自动合并。
任务调度系统
本系统通过Ruby on Rails+Vue技术框架、Sidekiq队列调度、Redis调度数据持久化实现了一个Web前端任务调度系统。通过任务调度系统,可以动态开启和关闭,定时启动爬虫程序。
搜索引擎系统
本系统通过ElasticSearch集群实现搜索引擎服务。搜索引擎是PC端检索系统从大数据集群中快速检索数据的必备工具。通过ElasticSearch集群,运行3个以上Master角色保证集群系统的稳定性,2个以上Client角色保证查询的容错性,2个以上Data角色保证查询和写入的及时性。通过负载均衡连接Client的角色,分散数据查询的压力。