【最佳实践】轻量化数据采集器Beats入门教程-阿里云开发者社区

优采云发布时间: 2020-08-27 00:12

　　轻量化数据采集器Beats入门教程，帮助 Elasticsearch 初学者全面了解哪些是 Beats、如何快速布署 Beats。

　　本文作者：刘晓国-Elastic社区布道师

　　Elasticsearch

　　Elasticsearch是一个分布式的开源搜索和剖析引擎，适用于所有类型的数据，包括文本，数字，地理空间，结构化和非结构化。Elasticsearch 基于Apache Lucene 构建，并于2010年由 Elasticsearch N.V.（现称为Elastic）首次发布。

　　Elasticsearch 以其简单的 REST API，分布式性质，速度和易扩充性而享誉。Elasticsearch 的搜索体验的基本原则是规模（scale），速度（speed），相关性（relevance）。总之，这三个属性是 Elastic 与其他产品的区别。这些属性贯串我们能看到的任何一个商业的示例，并且假如剥离这种层，则一般是它们使用 Elastic 的真正缘由。

　　Scale：可扩展性是指摄入和处理 PB 级数据的能力。Elasticsearch 集群是分布式的，所以它太容按照商业的需求来扩容。如果须要储存更多的数据，我们太容添加更多的服务器来进行满足商业的需求。

　　Speed：快速获得搜索结果的能力，即使在*敏*感*词*的情况下。在中国有一种说法：天下武功唯快不破。Elasticsearch可以在PB级数据情况下，也能获得毫秒级的搜索。即使是新数据导出到Elasticsearch中，也可以在1秒内变为可以搜索，从而实现逾实时的搜索。对于有的数据库来说，搜索可能是须要数小时就能完成。

　　Relevance：关联性是一种才能以任意形式查询数据并获得相关结果的能力，而不论是查看文本，数字还是地理数据。Elasticsearch可以按照数据的匹配度来返回数据。每个搜索的结果有一个分数，它表示匹配的相关度。在返回的数据结果中，匹配度最大的结果排在返回的结果的后面。

　　Elastic Stack

　　“ELK”是三个开源项目的简写：Elasticsearch，Logstash 和 Kibana。 Elasticsearch 是搜索和剖析引擎。Elasticsearch是整个Elastic Stack的核心组件。 Logstash是一个服务器端数据处理管线，它同时从多个源中提取数据，进行转换，然后将其发送到类似Elasticsearch的“存储”中。Beats是一些轻量级的数据摄入器的组合，用于将数据发送到Elasticsearch或发向Logstash做进一步的处理，并最后导出到Elasticsearch。 Kibana容许用户在Elasticsearch中使用图表将数据可视化。

　　Elastic 方案

　　Elastic 公司围绕Elastic Stack创建了许多的开箱即用的方案。对于好多搜索或数据库的公司来说，他们可能有挺好的产品，但是运用它们开发一套实现某种方案来说，也是须要好多的精力来组合不同公司的产品来完成这种方案。围绕Elastic Stack，Elastic公司推出了3+1:

　　我们可以看见 Elastic 的三大解决方案

　　企业搜索

　　可观测性

　　安全

　　而三大解决方案基于同一个 Elastic (ELK) Stack：Elasticsearch 和 Kibana。

　　Beats 是哪些？

　　在集中式日志记录中，数据管线包括三个主要阶段：聚合，处理和储存。在ELK堆栈中，传统上，前两个阶段是堆栈工作量Logstash的职责。执行这种任务须要付出一定的代价。由于与Logstash的设计有关的内在问题，性能问题显得时常发生，尤其是在复杂的管线须要大量处理的情况下。将Logstash的部份职责外包的看法也应运而生，尤其是将数据提取任务转移到其他工具上。正如我在本文中所描述的，这个看法首先在Lumberjack中彰显下来，然后在Logstash转发器中彰显下来。最终，在此后的几个开发周期中，引入了新的改进合同，该合同成为现今所谓的“ Beats”家族的骨干。

　　Beats是轻量级（资源高效，无依赖性，小型）和开放源代码日志发送程序的集合，这些日志发送程序充当安装在基础结构中不同服务器上的代理，用于搜集日志或指标（metrics）。这些可以是日志文件（Filebeat），网络数据（Packetbeat），服务器指标（Metricbeat）或Elastic和社区开发的越来越多的Beats可以搜集的任何其他类型的数据。采集后，数据将直接发送到Elasticsearch或Logstash中进行其他处理。Beats构建在名为libbeat的Go框架之上，该框架用于数据转发，这意味着社区仍然在开发和贡献新的Beats

　　Elastic Beats

　　Filebeat

　　顾名思义，Filebeat用于搜集和传送日志文件，它也是最常用的Beat。 Filebeat这么高效的事实之一就是它处理背压的形式-因此，如果Logstash忙碌，Filebeat会减低其读取速度，并在减速结束后推动节奏。

　　Filebeat几乎可以安装在任何操作系统上，包括作为Docker容器安装，还随附用于特定平台（例如Apache，MySQL，Docker等）的内部模块，其中收录那些平台的默认配置和Kibana对象。

　　在我之前的几篇文章中，我早已给下来好几个反例关于怎么使用Filebeat。

　　 Beats：通过Filebeat把日志传入到 Elasticsearch

　　 Logstash：把Apache日志导出到 Elasticsearch

　　Packetbeat

　　网络数据包分析器Packetbeat是第一个引入的beat。 Packetbeat捕获服务器之间的网路流量，因此可用于应用程序和性能监视。

　　Packetbeat可以安装在受监视的服务器上，也可以安装在其专用服务器上。 Packetbeat跟踪网路流量，解码合同并记录单笔交易的数据。 Packetbeat支持的合同包括：DNS，HTTP，ICMP，Redis，MySQL，MongoDB，Cassandra等。

　　Metribeat

　　Metricbeat是一种特别受欢迎的beat，它搜集并报告各类系统和平台的各类系统级测度。 Metricbeat还支持用于从特定平台搜集统计信息的内部模块。您可以使用这种模块和称为指标集的metricsets来配置Metricbeat搜集指标的频度以及要搜集什么特定指标。

　　Heartbeat

　　Heartbeat是用于“uptime monitoring”的。本质上，Heartbeat是侦测服务以检测它们是否可访问的功能，例如，它可以拿来验证服务的正常运行时间是否符合您的SLA。您要做的就是为Heartbeat提供URL和正常运行时间指标的列表，以直接发送到Elasticsearch或Logstash便于在构建索引之前发送到您的堆栈。

　　Auditbeat

　　Auditbeat可用于初审Linux服务器上的用户和进程活动。与其他传统的系统初审工具（systemd，auditd）类似，Auditbeat可用于辨识安全漏洞-文件修改，配置修改，恶意行为等。

　　Winlogbeat

　　Winlogbeat仅会引起Windows系统管理员或工程师的兴趣，因为它是专门为搜集Windows风波日志而设计的Beat。它可用于剖析安全风波，已安装的更新等。

　　Functionbeat

　　Functionbeat被定义为“serverless”的发件人，可以将其布署为搜集数据并将其发送到ELK堆栈的功能。 Functionbeat专为监视云环境而设计，目前已针对Amazon设置量身订制，可以布署为Amazon Lambda函数，以从Amazon CloudWatch，Kinesis和SQS搜集数据。

　　Beats 在 Elastic 堆栈中是怎样融入的

　　到目前为止，有如下的3中形式才能把我们所感兴趣的数据导出到Elasticsearch中:

　　正如前面所显示的那样，我们可以通过：

　　1、Beats：我们可以通过beats把数据导出到Elasticsearch中

　　2、Logstash：我们可以Logstash把数据导出。Logstash的数据来源也可以是Beats

　　3、REST API：我们可以通过Elastic所提供的丰富的API来把数据导出到Elasticsearch中。我们可以通过Java, Python, Go, Nodejs等各类Elasticsearch API来完成我们的数据导出。

　　那么针对Beats来说，Beats是怎样和其它的Elastic Stack一起工作的呢？我们可以看如下的框图：

　　从里面我们可以看下来，Beats的数据可以有如下的三种形式导出到Elasticsearch中：

　　 Beats ==> Elasticsearch

　　 Beats ==> Logstash ==> Elasticsearch

　　 Beats ==> Kafka ==> Logstash ==> Elasticsearch

　　正如前面所显示的那样：

　　我们可以直接把Beats的数据传入到Elasticsearch中，甚至在现今的好多情况中，这也是一种比较受欢迎的一种方案。它甚至可以结合Elasticsearch所提供的pipeline一起完成更为强悍的组合。

　　我们可以借助Logstash所提供的强悍的filter组合对数据流进行处理：解析，丰富，转换，删除，添加等等。你可以参阅我之前的文章“Data转换，分析，提取，丰富及核心操作”

　　针对有些情况，如果我们的数据流具有不确定性，比如可能在某个时刻生产大量的数据，从而造成Logstash不能及时处理，我们可以通过Kafka来做一个缓存。你可以参考我的文章“使用Kafka布署Elastic Stack”。

　　摄入通道（ingest pipeline)

　　我们晓得在Elasticsearch的节点中，有一类节点是ingest node。ingest pipeline运行于ingest node之上。它提供了在对文档构建索引之前对其进行预处理的功能

　　解析，转换并丰富数据

　　管线容许您配置即将使用的处理器

　　在前面的图中，我们可以看下来，我们可以使用在Elasticsearch集群里的ingest node来运行我们所定义的processors。这些processors定义于Elastic的官方文档Processors

　　Libeat - 创建Beats的Go构架

　　Libbeat是一个用于数据转发的库。Beats建立在名为libbeat的Go框架之上。它是一个开源的软件。我们可以在地址找到它的源码。它可以轻松为您想要发送到Elasticsearch的任何类型的数据创建自定义Beat。

　　如果你想建立自己的Beat的话，你可以参阅如下的文章：

　　 Build your own Beat

　　 Generate your beat

　　你也可以参阅我之前创建的文章“如何创建一个订制的Elastic Beat”。

　　对于一个beat来说，它可以分为如下的两个部份：数据搜集器，数据处理器及发布器。后面的这个部份由libbeat来提供。

　　上面的processor可以由Define processors来了解。下面是其中的一些processor的反例：

　　- add_cloud_metadata

- add_locale

- decode_json_fields

- add_fields

- drop_event

- drop_fields

- include_fields

- add_kubernetes_metadata

- add_docker_metadata

　　启动Filebeat及MetricbeatFilebeat 总览

　　Filebeat是用于转发和集中日志数据的轻量级传送程序。作为服务器上的代理安装，Filebeat监视您指定的日志文件或位置，采集日志风波，并将它们转发到Elasticsearch或Logstash以进行索引

　　Filebeat具有如下的一些特点：

　　正确处理日志旋转：针对每隔一个时间段生产一个新的日志的案例，Filebeat可以帮我们正确地处理新生产的日志，并重新启动对新生成日志的处理

　　背压敏感：如果日志生成的速率过快，从而造成Filebeat生产的速率超过Elasticsearch处理的速率，那么Filebeat可以手动调节处理的速率，以达到Elasticsearch可以处理的范围内

　　 “至少一次”保证：每个日志生成的风波起码被处理一次

　　结构化日志：可以处理结构化的日志数据数据

　　多行风波：如果一个日志有多行信息，也可以被正确处理，比如错误信息常常是多行数据

　　条件过滤：可以有条件地过滤一些风波

　　Filebeat的工作方式如下：启动Filebeat时，它将启动一个或多个输入，这些输入将在为日志数据指定的位置中查找。对于Filebeat所找到的每位日志，Filebeat就会启动采集器。每个收割机都读取一个日志以获取新内容，并将新日志数据发送到libbeat，libbeat会汇总风波，并将汇总的数据发送到为Filebeat配置的输出。

　　从里面有可以看下来在spooler里有一些缓存，这个可以用于重新发送以确保起码一次的风波消费，同时也可以用于背压敏感。一旦Filebeat生成的风波的速率超过Elasticsearch才能处理的极限，这个缓存可以用于储存一些风波。

　　Metricbeat 总览

　　Metricbeat是一种轻量级的托运人，您可以将其安装在服务器上，以定期从操作系统和服务器上运行的服务搜集指标。 Metricbeat会搜集它搜集的测度标准和统计信息，并将其运送到您指定的输出，例如Elasticsearch或Logstash。

　　Metricbeat通过从服务器上运行的系统和服务搜集指标来帮助您监视服务器，例如：

　　 Apache

　　 HAProxy

　　 MongoDB

　　 MySQL

　　 Nginx

　　 PostgreSQL

　　 Redis

　　 System

　　 Zookeeper

　　Metricbeat具有一些特点：

　　协程服务的API以搜集指标

　　有效地将指标储存在Elasticsearch中

　　通过JMX / Jolokia，Prometheus，Dropwizard，Graphite的应用程序指标

　　自动贴标：表明是从AWS, Docker， Kubernetes, GoogleCloud 或Azure采集的

　　Metricbeat由模块和指标集组成。 Metricbeat模块定义了从特定服务（例如Redis，MySQL等）采集数据的基本逻辑。该模块指定有关服务的详尽信息，包括怎样联接，采集测度的频度以及搜集什么测度。

　　每个模块都有一个或多个指标集。度量集是模块的一部分，用于获取和建立数据。度量标准集不是将每位测度标准搜集为单独的风波，而是在对远程系统的单个恳求中检索多个相关测度标准的列表。因此，例如，Redis模块提供了一个信息量度集，该信息量度集通过运行INFO命令并解析返回的结果来从Redis搜集信息和统计信息。

　　同样，MySQL模块提供了一个状态指标集，该指标集通过运行SHOW GLOBAL STATUS SQL查询从MySQL搜集数据。通过在远程服务器返回的单个恳求上将相关测度标准集组合在一起，度量标准集让您更轻松。如果没有用户启用的测度标准集，则大多数模块都具有默认测度标准集。

　　Metricbeat通过按照您在配置模块时指定的周期值定期寻问主机系统来检索指标。由于多个测度标准集可以将恳求发送到同一服务，因此Metricbeat尽可能重用联接。如果Metricbeat在超时配置设置指定的时间内未能联接到主机系统，它将返回错误。 Metricbeat异步发送风波，这意味着未确认风波检索。如果配置的输出不可用，则风波可能会遗失。

　　什么是Filebeat和Merticbeat模块

　　一个Filebeat模块一般由如下的部份组成：

　　Filebeat模块简化了常见日志格式的搜集，解析和可视化。

　　一个典型的模块（例如，对于Nginx日志）由一个或多个文件集（对于Nginx，访问和错误）组成。文件集收录以下内容：

　　 Filebeat输入配置，其中收录在其中查找日志文件的默认路径。这些默认路径取决于操作系统。 Filebeat配置还负责在须要时将多行风波缝线在一起。

　　 Elasticsearch Ingest Node管线定义，用于解析日志行。

　　数组定义，用于为每位数组配置具有正确类型的Elasticsearch。它们还收录每位数组的简略说明。

　　示例Kibana仪表板（如果有）可用于可视化日志文件。

　　Filebeat会按照您的环境手动调整这种配置，并将它们加载到相应的Elastic stack组件中。

　　针对其它的Beats模块来说，基本和Filebeat一样。目前针对Elasticsearch所提供的模块来说，有特别多的模块可以供使用：

　　本文经由 CSDN-Elastic 中国社区官方博客授权发布

　　原文标题：Beats：Beats 入门教程（一）

　　原文链接：

　　如果你想体验阿里云一站式全托管Beats服务

　　阿里云全托管Beats采集中心：实现对File、Metric、Heart的采集客户端批量下发管理

　　↓↓↓↓↓

　　点击免费开通阿里云 Logstash，体验全托管Beats服务

　　如何管理阿里云 Beats

　　【阿里云Elastic Stack】100%兼容开源ES，独有9大能力

　　相关活动

0

2020-08-27

免费云采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

【最佳实践】轻量化数据采集器Beats入门教程-阿里云开发者社区

0 个评论

发起人

AI时代内容工厂

【最佳实践】 轻量化数据采集器Beats入门教程-阿里云开发者社区

0 个评论

发起人

【最佳实践】轻量化数据采集器Beats入门教程-阿里云开发者社区