利用采集器 采集的平台(大部分使用ElasticSearch的情况下,logstash是怎么做的?)

优采云 发布时间: 2021-11-14 05:08

  利用采集器 采集的平台(大部分使用ElasticSearch的情况下,logstash是怎么做的?)

  在大多数情况下,ELK 同时用作堆栈。所有当您的数据系统使用 ElasticSearch 时,logstash 都是首选。

  4、楚夸

  官方网站:

  Apache Chukwa 是 Apache 下的另一个开源数据采集平台,远没有那么知名。Chukwa 建立在 Hadoop 的 HDFS 和 Map Reduce(显然,它是用 Java 实现的)之上,以提供可扩展性和可靠性。Chukwa 还提供数据的显示、分析和监控。奇怪的是,它的最后一次 github 更新发生在 7 年前。可以看出,该项目应该一直处于非活动状态。

  Chukwa 的部署架构如下:

  

  Chukwa的主要单元有:Agent、Collector、DataSink、ArchiveBuilder、Demux等,看起来挺复杂的。由于该项目已经处于非活动状态,我们不会仔细查看。

  5、抄写员

  代码托管:

  Scribe 是 Facebook 开发的数据(日志)采集系统。它已经很多年没有维护了,所以我就不多说了。

  

  6、Splunk 转发器

  官方网站:

  以上所有系统都是开源的。在商业大数据平台产品中,Splunk提供完整的数据挖掘、数据存储、数据分析处理、数据呈现能力。

  Splunk 是一个分布式机器数据平台,具有三个主要作用:

  Search Head负责数据的搜索和处理,提供搜索过程中的信息提取。

  Indexer 负责数据存储和索引

  Forwarder,负责数据的采集、清洗、变形、发送给Indexer

  

  Splunk 具有对 Syslog、TCP/UDP 和假脱机的内置支持。同时,用户可以通过开发Script Input和Modular Input来获取具体的数据。在Splunk提供的软件仓库中,有很多成熟的数据应用,如AWS、数据库(DBConnect)等,可以方便地从云端或数据库中获取数据,进入Splunk的数据平台进行分析。

  这里需要注意的是,Search Head和Indexer都支持Cluster的配置,高可用,高扩展性,但是Splunk目前还没有Cluster for Farwarder的功能。也就是说,如果一台Farwarder机器出现故障,数据采集也会中断,并且正在运行的数据采集任务无法故障转移到其他Farwarder。

  总结

  我们简要讨论了几个流行的数据采集平台,其中大多数提供高度可靠和高度可扩展的数据采集。大多数平台都抽象了输入、输出和中间缓冲区的架构。使用分布式网络连接,大多数平台都可以实现一定程度的可扩展性和高可靠性。

  其中Flume和Fluentd是使用最多的两款产品。如果使用 ElasticSearch,Logstash 可能是首选,因为 ELK 堆栈提供了很好的集成。由于项目不活跃,不推荐 Chukwa 和 Scribe。

  作为一款优秀的商业产品,Splunk的数据采集还是有一定的局限性。我相信 Splunk 很快就会开发出更好的数据采集解决方案。

  结尾。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线