六个大数据采集平台的建筑分析

优采云 发布时间: 2020-08-06 19:14

  几乎在大多数情况下,ELK同时用作堆栈. 当您的数据系统使用ElasticSearch时,logstash都是首选.

  4,Chukwa

  官方网站:

  Apache Chukwa是Apache之下的另一个开源数据采集平台,它远没有其他人知名. Chukwa建立在Hadoop的HDFS和Map Reduce(显然是用Java实现)的基础上,以提供可伸缩性和可靠性. Chukwa还提供数据的显示,分析和监控. 奇怪的是它的上一次github更新发生在7年前. 可以看出该项目应该是不活动的.

  Chukwa的部署结构如下:

  

  Chukwa的主要单元是: Agent,Collector,DataSink,ArchiveBuilder,Demux等,它们看起来很复杂. 由于该项目已经处于非活动状态,因此我们将不进行仔细研究.

  5,抄写员

  代码托管:

  Scribe是Facebook开发的数据(日志)采集系统. 它已经维护了很多年,所以我就不多说了.

  

  6,Splunk转发器

  官方网站:

  以上所有系统都是开源的. 在商业化的大数据平台产品中,Splunk提供了完整的数据挖掘,数据存储,数据分析和处理以及数据表示功能.

  Splunk是一个分布式机器数据平台,具有三个主要角色:

  搜索头负责数据搜索和处理,并在搜索过程中提供信息提取.

  索引器负责数据存储和索引

  转发器,负责数据采集,清理,变形并发送到Indexer

  

  Splunk具有对Syslog,TCP / UDP和后台打印的内置支持. 同时,用户可以通过开发脚本输入和模块化输入来获取特定数据. Splunk提供的软件仓库中有许多成熟的数据采集应用程序,例如AWS,数据库(DBConnect)等,可以轻松地从云或数据库中获取数据并进入Splunk数据平台进行分析.

  此处应注意,搜索头和索引器均支持Cluster的配置,该配置具有高可用性和高度可伸缩性,但是Splunk尚不具有Cluster for Farwarder的功能. 换句话说,如果Farwarder计算机发生故障,则数据采集将被中断,并且正在运行的数据采集任务无法故障转移到其他Farwarder.

  摘要

  我们简要讨论了几种流行的数据采集平台,其中大多数提供高度可靠和可扩展的数据采集. 大多数平台都抽象了输入,输出和中间缓冲区的体系结构. 使用分布式网络连接,大多数平台都可以实现一定程度的可扩展性和高可靠性.

  在其中,Flume和Fluentd是另外两个二手产品. 如果使用ElasticSearch,则Logstash可能是首选,因为ELK堆栈可提供良好的集成. 由于项目不活跃,不建议使用Chukwa和Scribe.

  Splunk是出色的商业产品,其数据采集仍然有一定的局限性. 我相信Splunk很快就会开发出更好的数据采集解决方案.

  结束.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线