测评:【最佳实践】轻量化数据采集器Beats入门教程

优采云发布时间: 2022-10-25 22:18

　　弹性搜索

　　Elasticsearch 是一个分布式开源搜索和分析引擎，适用于所有类型的数据，包括文本、数字、地理空间、结构化和非结构化数据。Elasticsearch 基于 Apache Lucene 构建，由 Elasticsearch NV（现称为 Elastic）于 2010 年首次发布。

　　Elasticsearch 以其简单的 REST API、分布式特性、速度和易于扩展而闻名。Elasticsearch 搜索体验的基本原则是规模、速度和相关性。综上所述，这三个属性是 Elastic 与其他产品的不同之处。这些属性贯穿于我们可以看到的任何商业示例，如果层被剥离，这通常是他们使用 Elastic 的真正原因。

　　规模：可扩展性是指摄取和处理 PB 级数据的能力。Elasticsearch 集群是分布式的，因此可以根据业务需求轻松扩展。如果需要存储更多数据，我们可以轻松添加更多服务器以满足业务需求。

　　速度：快速获得搜索结果的能力，即使是*敏*感*词*的。中国有句俗话，天下武功，唯快不破。即使是 PB 级的数据，Elasticsearch 也可以获得毫秒级的搜索。即使是导入 Elasticsearch 的新数据也可以在 1 秒内变得可搜索，从而实现近乎实时的搜索。对于某些数据库，搜索可能需要数小时才能完成。

　　相关性：相关性是以任何方式查询数据并获得相关结果的能力，无论是查看文本、数字还是地理数据。Elasticsearch 可以根据数据的匹配程度返回数据。每个搜索的结果都有一个分数，表示匹配的相关性。在返回的数据结果中，匹配度最大的结果列在返回结果的前面。

　　弹性堆栈

　　“ELK”是三个开源项目的首字母缩写词：Elasticsearch、Logstash 和 Kibana。Elasticsearch 是一个搜索和分析引擎。Elasticsearch 是整个 Elastic Stack 的核心组件。Logstash 是一个服务器端数据处理管道，它同时从多个来源提取数据，对其进行转换，然后将其发送到类似 Elasticsearch 的“存储”。Beats 是轻量级数据摄取器的组合，可将数据发送到 Elasticsearch 或 Logstash 进行进一步处理，最后导入 Elasticsearch。Kibana 允许用户使用 Elasticsearch 中的图表来可视化数据。

　　弹性解决方案

　　Elastic 围绕 Elastic Stack 创建了许多开箱即用的解决方案。对于很多搜索或者数据库公司来说，他们可能有好的产品，但是用它们来开发一套解决方案需要很大的精力去结合不同公司的产品来完成这些解决方案。围绕 Elastic Stack，Elastic 推出了 3+1：

　　我们可以看到 Elastic 的三大解决方案

　　• 企业搜索

　　• 可观察性

　　• 安全

　　这三个解决方案都基于相同的 Elastic (ELK) Stack：Elasticsearch 和 Kibana。

　　什么是节拍？

　　在集中式日志记录中，数据管道由三个主要阶段组成：聚合、处理和存储。在 ELK 堆栈中，传统上，前两个阶段由堆栈工作负载 Logstash 负责。执行这些任务需要付出代价。由于与 Logstash 设计相关的固有问题，性能问题变得频繁，尤其是当复杂的管道需要大量处理时。也出现了将Logstash的部分职责外包出去的想法，尤其是把数据提取任务转移到其他工具上。正如我在本文中所描述的，这个想法首先体现在 Lumberjack 中，然后体现在 Logstash 转发器中。最终，在接下来的几个开发周期中，引入了新的和改进的协议，成为现在称为“Beats”系列的支柱。

　　Beats 是轻量级（资源高效、无依赖、小型）和开源日志*敏*感*词*的集合，它们充当安装在基础架构中不同服务器上的代理，以采集日志或指标（metrics）。这些可以是日志文件 (Filebeat)、网络数据 (Packetbeat)、服务器指标 (Metricbeat) 或 Elastic 和社区开发的越来越多的 Beats 可以采集的任何其他类型的数据。采集后，数据将直接发送到 Elasticsearch 或 Logstash 进行额外处理。Beats 建立在名为 libbeat 的 Go 框架之上，该框架用于数据转发，这意味着社区正在不断开发和贡献新的 Beats

　　弹性节拍

　　文件节拍

　　顾名思义，Filebeat是用来采集和传递日志文件的，也是最常用的Beat。Filebeat 之所以如此高效的原因之一是它处理背压的方式——因此，如果 Logstash 很忙，Filebeat 会减慢其读取速度，并在减慢结束时加快节奏。

　　Filebeat 可以安装在几乎任何操作系统上，包括作为 Docker 容器，并且还附带用于特定平台（如 Apache、MySQL、Docker 等）的内部模块，其中收录这些平台的默认配置和 Kibana 对象。

　　在我之前的文章文章中，我已经给出了几个关于如何使用 Filebeat 的示例。

　　• Beats：通过 Filebeat 将日志传递到 Elasticsearch

　　• Logstash：将 Apache 日志导入 Elasticsearch

　　包节拍

　　网络数据包分析器 Packetbeat 是第一个引入的节拍。Packetbeat 捕获服务器之间的网络流量，因此可用于应用程序和性能监控。

　　Packetbeat 可以安装在受监控的服务器上，也可以安装在其专用服务器上。Packetbeat 跟踪网络流量、解码协议并记录每个事务的数据。Packetbeat 支持的协议包括：DNS、HTTP、ICMP、Redis、MySQL、MongoDB、Cassandra 等。

　　节拍

　　Metricbeat 是一种非常流行的节拍，它采集和报告各种系统和平台的各种系统级指标。Metricbeat 还支持用于从特定平台采集统计信息的内部模块。您可以使用这些称为 metricsets 的模块和指标集来配置 Metricbeat 采集指标的频率以及要采集哪些特定指标。

　　心跳

　　Heartbeat 用于“正常运行时间监控”。本质上，Heartbeat 是一种探测服务以检查它们是否可访问的能力，例如，它可用于验证服务的正常运行时间是否符合您的 SLA。您所要做的就是为 Heartbeat 提供一个 URL 列表和正常运行时间指标，以便在索引之前直接发送到 Elasticsearch 或 Logstash 以发送到您的堆栈。

　　审计节拍

　　Auditbeat 可用于审计 Linux 服务器上的用户和进程活动。与其他传统系统审计工具（systemd、auditd）类似，Auditbeat 可用于识别安全漏洞——文件更改、配置更改、恶意行为等。

　　Winlogbeat

　　Winlogbeat 只有 Windows 系统管理员或工程师才会感兴趣，因为它是专门为采集 Windows 事件日志而设计的 Beat。它可用于分析安全事件、安装的更新等。

　　功能节拍

　　Functionbeat 被定义为“无服务器”*敏*感*词*，可以部署为采集数据并将其发送到 ELK 堆栈的函数。Functionbeat 专为监控云环境而设计，目前专为 Amazon 设置量身定制，可部署为 Amazon Lambda 函数，以从 Amazon CloudWatch、Kinesis 和 SQS 采集数据。

　　Beats 如何融入 Elastic 堆栈

　　到目前为止，我们有 3 种方法可以将我们感兴趣的数据导入 Elasticsearch：

　　如上图，我们可以通过：

　　1、Beats：我们可以通过beats将数据导入Elasticsearch

　　2、Logstash：我们可以将数据导入Logstash。Logstash 的数据源也可以是 Beats

　　3. REST API：我们可以通过Elastic提供的丰富API将数据导入Elasticsearch。我们可以通过Java、Python、Go、Nodejs等各种Elasticsearch API来完成我们的数据导入。

　　那么对于 Beats，Beats 如何与 Elastic Stack 的其余部分协同工作？我们可以看到下面的框图：

　　从上面我们可以看出，可以通过以下三种方式将 Beats 数据导入 Elasticsearch：

　　• Beats ==> Elasticsearch

　　• Beats ==> Logstash ==> Elasticsearch

　　• Beats ==> Kafka ==> Logstash ==> Elasticsearch

　　如上图：

　　• 我们可以将 Beats 数据直接传递到 Elasticsearch，即使在现在很多情况下，这也是一种流行的解决方案。它甚至可以与 Elasticsearch 提供的管道相结合，完成更强大的组合。

　　• 我们可以使用Logstash 提供的强大的过滤器组合来处理数据流：解析、丰富、转换、删除、添加等。可以参考我之前的文章《数据转换、分析、提取、浓缩和核心操作》

　　• 对于某些情况，如果我们的数据流是不确定的，比如某个时间可能会产生大量数据，导致Logstash无法及时处理，我们可以使用Kafka作为缓存。可以参考我的文章《用Kafka部署Elastic Stack》。

　　摄取管道

　　我们知道，在 Elasticsearch 节点中，有一类节点是摄取节点。摄取管道在摄取节点上运行。它提供了在索引文档之前对文档进行预处理的能力

　　• 解析、转换和丰富数据

　　• 管道允许您配置将使用哪些处理器

　　在上图中，我们可以看到我们可以使用 Elasticsearch 集群中的摄取节点来运行我们定义的处理器。这些处理器在 Elastic 的官方文档 Processors 中定义

　　Libeat - 用于创建 Beats 的 Go 架构

　　Libbeat 是一个用于数据转发的库。Beats 建立在名为 libbeat 的 Go 框架之上。它是一个开源软件。我们可以在地址找到它的源代码。它使您可以轻松地为要发送到 Elasticsearch 的任何类型的数据创建自定义 Beats。

　　如果你想构建自己的Beat，可以参考下面的文章：

　　• 建立自己的节拍

　　• 生成您的节拍

　　您也可以参考我之前创建的文章“如何创建自定义 Elastic Beat”。

　　对于一个节拍，它可以分为以下两部分：数据采集器、数据处理器和发布器。后半部分由 libbeat 提供。

　　上面的处理器可以通过Define处理器来理解。以下是其中一些处理器的示例：

　　- add_cloud_metadata

- add_locale

- decode_json_fields

- add_fields

- drop_event

- drop_fields

- include_fields

- add_kubernetes_metadata

- add_docker_metadata

　　启动 Filebeat 和 MetricbeatFilebeat 概述

　　Filebeat 是一个用于转发和集中日志数据的轻量级交付程序。作为代理安装在服务器上，Filebeat 监控您指定的日志文件或位置，采集日志事件，并将它们转发到 Elasticsearch 或 Logstash 以进行索引

　　Filebeat 具有以下特点：

　　• 正确处理日志轮转：对于每个时间段都会产生新日志的情况，Filebeat 可以帮助我们正确处理新产生的日志，并重新开始处理新产生的日志

　　• 背压敏感：如果日志生成速度过快，导致 Filebeat 产生的速度超过 Elasticsearch 可以处理的速度，那么 Filebeat 可以自动调整处理速度，达到 Elasticsearch 可以处理的范围

　　• “至少一次”保证：每个日志生成的事件至少被处理一次

　　• 结构化日志：可以处理结构化日志数据数据

　　• 多行事件：如果日志有多行信息，也可以正确处理，例如错误消息往往是多行数据

　　• 条件过滤：某些事件可以有条件地过滤

　　Filebeat 的工作原理是这样的：当您启动 Filebeat 时，它会启动一个或多个输入，并在为日志数据指定的位置中查找这些输入。对于 Filebeat 找到的每个日志，Filebeat 都会启动一个采集器。每个harvester 读取新内容的日志并将新日志数据发送到libbeat，libbeat 聚合事件并将聚合数据发送到为Filebeat 配置的输出。

　　从上面可以看出，spooler中有一些缓存，可以用来重发保证至少一个事件消费，也可以用来做背压敏感。一旦 Filebeat 生成的事件超出 Elasticsearch 的处理能力，此缓存可用于存储一些事件。

　　Metricbeat 概览

　　Metricbeat 是一个轻量级的传送器，您可以将其安装在您的服务器上，以定期从服务器上运行的操作系统和服务采集指标。Metricbeat 获取它采集的指标和统计信息，并将其发送到您指定的输出，例如 Elasticsearch 或 Logstash。

　　Metricbeat 通过采集服务器上运行的系统和服务的指标来帮助您监控服务器，例如：

　　• 阿帕奇

　　• HAProxy

　　• MongoDB

　　• MySQL

　　• Nginx

　　• PostgreSQL

　　• Redis

　　• 系统

　　• 动物园管理员

　　Metricbeat 有一些特点：

　　• 轮询服务的 API 以采集指标

　　• 在 Elasticsearch 中高效存储指标

　　• 通过 JMX/Jolokia、Prometheus、Dropwizard、Graphite 的应用程序指标

　　• 自动标签：表示来自 AWS、Docker、Kubernetes、GoogleCloud 或 Azure采集

　　Metricbeat 由模块和指标集组成。Metricbeat 模块定义了从特定服务（例如 Redis、MySQL 等）采集数据的基本逻辑。此模块指定有关服务的详细信息，包括如何连接、多久采集一次指标以及要采集哪些指标。

　　每个模块都有一个或多个指标集。度量集是模块的一部分，用于获取和构建数据。度量集不是将每个度量作为单独的事件采集，而是在对远程系统的单个请求中检索多个相关度量的列表。因此，例如，Redis 模块提供了一个信息度量集，它通过运行 INFO 命令并解析返回的结果来从 Redis 采集信息和统计信息。

　　同样，MySQL 模块提供了一组状态指标，通过运行 SHOW GLOBAL STATUS SQL 查询从 MySQL 采集数据。指标集通过将相关的指标集分组到远程服务器返回的单个请求中，让您更轻松。如果没有用户启用的指标集，则大多数模块都有默认指标集。

　　Metricbeat 通过根据您在配置模块时指定的周期值定期询问主机系统来检索指标。由于多个指标集可以向同一个服务发送请求，因此 Metricbeat 会尽可能重用连接。如果 Metricbeat 在超时配置设置指定的时间内无法连接到主机系统，则会返回错误。Metricbeat 异步发送事件，这意味着不确认事件检索。如果配置的输出不可用，事件可能会丢失。

　　什么是 Filebeat 和 Merticbeat 模块

　　一个 Filebeat 模块通常由以下部分组成：

　　Filebeat 模块简化了常见日志格式的采集、解析和可视化。

　　• 一个典型的模块（例如，用于 Nginx 日志记录）由一个或多个文件集（用于 Nginx、访问和错误）组成。文件集收录以下内容：

　　• Filebeat 输入配置，其中收录查找日志文件的默认路径。这些默认路径取决于操作系统。Filebeat 配置还负责在需要时将多行事件拼接在一起。

　　• 用于解析日志行的Elasticsearch Ingest Node 管道定义。

　　• 为每个字段配置正确类型的字段定义。它们还收录每个字段的简短描述。

　　• Kibana 仪表板示例（如果可用）可用于可视化日志文件。

　　Filebeat 会根据您的环境自动调整这些配置，并将它们加载到相应的 Elastic stack 组件中。

　　对于其他 Beats 模块，与 Filebeat 基本相同。对于 Elasticsearch 提供的模块，有很多可用的模块：

　　本文经CSDN-Elastic中国社区官方博客授权发布

　　原标题：Beats：Beats 入门教程（一）

　　原文链接：

　　如果你想体验阿里云一站式全托管Beats服务

　　阿里云全托管Beats采集中心：实现File、Metric、Heart的采集客户端批量下发管理

　　↓↓↓↓↓

　　点击免费激活阿里云Logstash，体验全托管Beats服务

　　如何管理阿里云 Beats

　　【阿里巴巴云Elastic Stack】100%兼容开源ES，拥有9大独特能力

　　相关活动

　　更多优惠请访问阿里云Elasticsearch官网

　　阿里云Elasticsearch商用普通版，首月免费1核2G

　　阿里云Logstash 2核4G首月免费

　　干货教程:优采云站群管理系统与神探网页文章收集下载评论软件详情对比

　　优采云站群管理系统是多任务系统，只需要输入关键词，即可采集到最新的相关内容，自动发布SEO到指定网站站群管理系统，可24小时不间断维护数百个网站。优采云站群管理系统可以根据设置的关键词自动抓取各大搜索引擎的相关搜索词和相关长尾词，然后根据设置抓取大量最新的关键词派生词。数据，彻底摒弃普通采集软件所需的繁琐规则定制，实现一键式采集一键发布。优采云站群管理系统无需绑定电脑或IP，网站的数量没有限制，可以24小时挂机采集维护，让站长轻松管理上百个网站。软件独有的内容采集引擎，可以及时准确地采集互联网上的最新内容。内置文章伪原创功能，可以大大增加网站的收录，为站长带来更多流量！

　　优采云站群软件已经支持的核心功能：

　　无限添加域名，网站，中文站群采集，英文站群采集，指定网址采集，自定义发布界面，自定义生成原创文章，长尾关键词采集，相关图片采集，全球SEO链轮，文章自动加入内链，随机抽取内容为标题，交换不同内容段落，随机插入指定关键词，定时发布文章，自动内容伪原创，群参设置，群链接库互通，自动*敏*感*词*挂机采集发布，自动更新网站首页栏目内页为静态等。

　　优采云站群软件V18.01.02更新如下：

　　1.修复一些js报错bug

　　2.修复日志bug

　　3.修复异常超调bug

　　4.完善其他细节功能

　　5.完善群发外链工具

　　6.新增指定ie绑定子程序，让发布和指定采集更高效

　　7.界面工具增加页面坐标定位等功能

　　8.新增，每组可单独设置允许更新时间范围

　　9.增加至尊版用户各站文件夹自动导入txt的选项

　　10.增加文章列库分库功能，实现单站理论上无限数据存储

　　11. 增加避免百度清风的算法。详见分组参数中3.2.1.4中的参数

　　12、网站日志、seo查询等功能作为子程序独立运行，避免与主程序抢资源

　　13.优化所有子程序，运行更高效

　　14、新增启动程序，方便设置和发送桌面快捷键。原来站群是主程序，不要修改启动程序的名字，以免出现异常。

　　15.新增两个效率选项，在主程序左上角的系统中选择

　　优采云站群软件V17.06.16更新如下：

　　1.修复之前独立子程序积累的所有bug，完善更详细的功能

　　2.增加分组参数自动切换功能

　　3.增加至尊版自定义题库功能

　　4.群发外链工具V170321入门版也可以使用

　　5.修复英文采集

　　6.修复视频采集

　　7. 指定的域名只有在新标题或内容收录时才会被添加到数据库中

　　8.添加内容编辑器2，修复之前无法编辑文章的用户

　　9. 修复个别错误的接口工具

　　10.完善其他细节功能

　　优采云站群软件V17.02.24更新如下：

　　1、增强关键词采集文章和指定域名采集文章的高质量自动识别

　　2.修复调用至尊版用户栏的段落库的bug

　　3. 改善群发外链工具的卡顿问题

　　4.关键词采集文章修复采集实图

　　5.搜狗推荐新闻bug

　　6.内容伪原创中的时间参数

　　7、指定域名支持前端采集，解决部分页面后端采集为空

　　8.添加文章个别明细功能进行导出处理

　　9.添加挂机是间隔分钟的设置

0

2022-10-25

全托管文章智能采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

测评:【最佳实践】轻量化数据采集器Beats入门教程

0 个评论

发起人

AI时代内容工厂

测评:【最佳实践】 轻量化数据采集器Beats入门教程

0 个评论

发起人

测评:【最佳实践】轻量化数据采集器Beats入门教程