智能采集平台(Web大数据采集系统的八个子系统)

优采云 发布时间: 2021-12-06 02:12

  智能采集平台(Web大数据采集系统的八个子系统)

  天马网络大数据采集,是天马科技基于云计算开发的一款集分析、可视化为一体的强大的大数据采集平台。使用大量云计算服务器协同工作,可以快速采集海量数据,避免计算机硬件资源瓶颈。探索模拟人工智能的新一代智能采集器,解决传统邮政采集的技术难题,满足采集的高标准要求。

  Web大数据采集系统的八个子系统

  天马网大数据采集系统分为大数据集群系统、数据采集系统、采集数据源研究、数据爬虫系统、数据清洗系统、数据整合8个子系统系统、任务调度系统、搜索引擎系统。

  大数据集群系统

  本系统可以存储TB级别的采集数据,实现数据持久化。数据存储采用MongoDB集群方案,集群上有两大特点:

  数据采集系统

  本系统搭载Kapow、PhantomJS、Mechanize采集环境,运行在Docker容器中,由Rancher安排容器。

  采集数据源研究

  该系统是“数据爬虫系统”启动前不可缺少的环节。经过排查,发现页面需要采集,需要过滤的关键字,需要提取的内容。

  数据爬虫系统

  爬虫程序都是独立的个体,结合采集系统服务器需要的数据,由Rancher安排,在DigitalOcean中自动启动爬虫程序,根据输入的参数,抓取指定的数据,然后发回通过API大数据集群系统给我们。

  数据清洗系统

  本系统采用Ruby on Rails+Vue技术框架实现Web前端展示,展示爬虫程序抓取的数据,方便我们的清理。数据清洗系统主要由两部分组成:

  数据整合系统

  本系统采用Ruby on Rails+Vue技术框架,实现Web前端展示和数据合并。数据清洗后,数据合并系统会自动匹配大数据集群中的数据,通过熟人评分关联可能的熟人数据。匹配结果通过web前端展示,数据可以手动或自动合并。

  任务调度系统

  本系统通过Ruby on Rails+Vue技术框架、Sidekiq队列调度、Redis调度数据持久化实现了一个Web前端任务调度系统。通过任务调度系统,可以动态开启和关闭,定时启动爬虫程序。

  搜索引擎系统

  本系统通过ElasticSearch集群实现搜索引擎服务。搜索引擎是PC端检索系统从大数据集群中快速检索数据的必备工具。通过ElasticSearch集群,运行3个以上Master角色保证集群系统的稳定性,2个以上Client角色保证查询的容错性,2个以上Data角色保证查询和写入的及时性。通过负载均衡连接Client的角色,分散数据查询的压力。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线