文章采集组合工具(腐烂的树叶是树成长最佳的肥料一样(组图))

优采云 发布时间: 2022-01-01 21:01

  文章采集组合工具(腐烂的树叶是树成长最佳的肥料一样(组图))

  开发者供不应求,传统企业如何拥抱DevOps? >>>

  

  失败是最好的营养,腐烂的叶子是树木生长最好的肥料。我们不仅要反省自己的过错,还要分享自己的过错。敢于分享错误的人是了不起的人。

  Flume 是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输系统。支持自定义日志系统中的各种数据*敏*感*词*来采集数据;同时,Flume 提供了对数据进行简单处理和写入各种数据接收方(如文本、HDFS、Hbase 等)的能力。 Flume 的数据流是通过事件来贯穿的。 Event是Flume的基本数据单元。它携带日志数据(以字节数组的形式)并携带头信息。这些事件由代理外部的源生成。当Source捕捉到事件时,会进行特定的格式化,然后Source会记录事件。推入(单个或多个)频道。您可以将 Channel 视为一个缓冲区,它将保存事件直到*敏*感*词*处理完事件。 Sink 负责持久化日志或将事件推送到另一个 Source。

  Flume 的一些核心概念:

  1.Agent:使用JVM运行Flume。每台机器运行一个代理,但一个代理可以收录多个源和*敏*感*词*。

  2.客户端:生产数据,在单独的线程中运行。

  3.来源:从Client采集数据并传递给Channel。

  4.Sink:从Channel采集数据并在单独的线程中运行。

  5. Channel:连接sources和sinks,这有点像队列。

  6.Events:可以是日志记录、avro对象等

  Flume 以 agent 为最小的独立操作单元。代理是一个 JVM。单个代理由三个组件组成:Source、Sink和Channel,如下图所示:

  

  值得注意的是,Flume 提供了大量的内置 Source、Channel 和 Sink 类型。不同类型的Source、Channel和Sink可以自由组合。组合方式基于用户设置的配置文件,非常灵活。例如:Channel 可以将事件临时存储在内存中或持久化到本地硬盘。 Sink 可以将日志写入 HDFS、HBase,甚至另一个 Source 等。Flume 支持用户建立多级流,即多个代理可以协同工作,并支持 Fan-in、Fan-out、Contextual Routing, Backup Routes,这正是NB所在的地方。如下图所示:

  

  日志采集的实际应用案例:

  Flume:日志采集

  HDFS/HBase:日志存储

  Hive:日志分析

  

  本文来自微信公众号-大数据与微服务架构(gh_7bc8d3796e8e)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线