六个大数据采集平台的建筑分析

优采云发布时间: 2020-08-06 19:14

　　几乎在大多数情况下，ELK同时用作堆栈. 当您的数据系统使用ElasticSearch时，logstash都是首选.

　　4，Chukwa

　　官方网站:

　　Apache Chukwa是Apache之下的另一个开源数据采集平台，它远没有其他人知名. Chukwa建立在Hadoop的HDFS和Map Reduce（显然是用Java实现）的基础上，以提供可伸缩性和可靠性. Chukwa还提供数据的显示，分析和监控. 奇怪的是它的上一次github更新发生在7年前. 可以看出该项目应该是不活动的.

　　Chukwa的部署结构如下:

　　Chukwa的主要单元是: Agent，Collector，DataSink，ArchiveBuilder，Demux等，它们看起来很复杂. 由于该项目已经处于非活动状态，因此我们将不进行仔细研究.

　　5，抄写员

　　代码托管:

　　Scribe是Facebook开发的数据（日志）采集系统. 它已经维护了很多年，所以我就不多说了.

　　6，Splunk转发器

　　官方网站:

　　以上所有系统都是开源的. 在商业化的大数据平台产品中，Splunk提供了完整的数据挖掘，数据存储，数据分析和处理以及数据表示功能.

　　Splunk是一个分布式机器数据平台，具有三个主要角色:

　　搜索头负责数据搜索和处理，并在搜索过程中提供信息提取.

　　索引器负责数据存储和索引

　　转发器，负责数据采集，清理，变形并发送到Indexer

　　Splunk具有对Syslog，TCP / UDP和后台打印的内置支持. 同时，用户可以通过开发脚本输入和模块化输入来获取特定数据. Splunk提供的软件仓库中有许多成熟的数据采集应用程序，例如AWS，数据库（DBConnect）等，可以轻松地从云或数据库中获取数据并进入Splunk数据平台进行分析.

　　此处应注意，搜索头和索引器均支持Cluster的配置，该配置具有高可用性和高度可伸缩性，但是Splunk尚不具有Cluster for Farwarder的功能. 换句话说，如果Farwarder计算机发生故障，则数据采集将被中断，并且正在运行的数据采集任务无法故障转移到其他Farwarder.

　　摘要

　　我们简要讨论了几种流行的数据采集平台，其中大多数提供高度可靠和可扩展的数据采集. 大多数平台都抽象了输入，输出和中间缓冲区的体系结构. 使用分布式网络连接，大多数平台都可以实现一定程度的可扩展性和高可靠性.

　　在其中，Flume和Fluentd是另外两个二手产品. 如果使用ElasticSearch，则Logstash可能是首选，因为ELK堆栈可提供良好的集成. 由于项目不活跃，不建议使用Chukwa和Scribe.

　　Splunk是出色的商业产品，其数据采集仍然有一定的局限性. 我相信Splunk很快就会开发出更好的数据采集解决方案.

　　结束.

0

2020-08-06

u采采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

六个大数据采集平台的建筑分析

0 个评论

发起人