利用采集器采集的平台(大部分使用ElasticSearch的情况下，logstash是怎么做的？)

优采云发布时间: 2021-11-14 05:08

　　在大多数情况下，ELK 同时用作堆栈。所有当您的数据系统使用 ElasticSearch 时，logstash 都是首选。

　　4、楚夸

　　官方网站：

　　Apache Chukwa 是 Apache 下的另一个开源数据采集平台，远没有那么知名。Chukwa 建立在 Hadoop 的 HDFS 和 Map Reduce（显然，它是用 Java 实现的）之上，以提供可扩展性和可靠性。Chukwa 还提供数据的显示、分析和监控。奇怪的是，它的最后一次 github 更新发生在 7 年前。可以看出，该项目应该一直处于非活动状态。

　　Chukwa 的部署架构如下：

　　Chukwa的主要单元有：Agent、Collector、DataSink、ArchiveBuilder、Demux等，看起来挺复杂的。由于该项目已经处于非活动状态，我们不会仔细查看。

　　5、抄写员

　　代码托管：

　　Scribe 是 Facebook 开发的数据（日志）采集系统。它已经很多年没有维护了，所以我就不多说了。

　　6、Splunk 转发器

　　官方网站：

　　以上所有系统都是开源的。在商业大数据平台产品中，Splunk提供完整的数据挖掘、数据存储、数据分析处理、数据呈现能力。

　　Splunk 是一个分布式机器数据平台，具有三个主要作用：

　　Search Head负责数据的搜索和处理，提供搜索过程中的信息提取。

　　Indexer 负责数据存储和索引

　　Forwarder，负责数据的采集、清洗、变形、发送给Indexer

　　Splunk 具有对 Syslog、TCP/UDP 和假脱机的内置支持。同时，用户可以通过开发Script Input和Modular Input来获取具体的数据。在Splunk提供的软件仓库中，有很多成熟的数据应用，如AWS、数据库（DBConnect）等，可以方便地从云端或数据库中获取数据，进入Splunk的数据平台进行分析。

　　这里需要注意的是，Search Head和Indexer都支持Cluster的配置，高可用，高扩展性，但是Splunk目前还没有Cluster for Farwarder的功能。也就是说，如果一台Farwarder机器出现故障，数据采集也会中断，并且正在运行的数据采集任务无法故障转移到其他Farwarder。

　　总结

　　我们简要讨论了几个流行的数据采集平台，其中大多数提供高度可靠和高度可扩展的数据采集。大多数平台都抽象了输入、输出和中间缓冲区的架构。使用分布式网络连接，大多数平台都可以实现一定程度的可扩展性和高可靠性。

　　其中Flume和Fluentd是使用最多的两款产品。如果使用 ElasticSearch，Logstash 可能是首选，因为 ELK 堆栈提供了很好的集成。由于项目不活跃，不推荐 Chukwa 和 Scribe。

　　作为一款优秀的商业产品，Splunk的数据采集还是有一定的局限性。我相信 Splunk 很快就会开发出更好的数据采集解决方案。

　　结尾。

0

2021-11-14

利用采集器采集的平台

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

利用采集器采集的平台(大部分使用ElasticSearch的情况下，logstash是怎么做的？)

0 个评论

发起人

AI时代内容工厂

利用采集器 采集的平台(大部分使用ElasticSearch的情况下，logstash是怎么做的？)

0 个评论

发起人

相关问题

利用采集器采集的平台(大部分使用ElasticSearch的情况下，logstash是怎么做的？)