采集系统常用采集指标-streamlog,日志非标准日志
优采云 发布时间: 2021-07-09 07:02采集系统常用采集指标-streamlog,日志非标准日志
采集采集系统常用采集指标:采集速率、采集精度、采集占比等。采集工具:vertica(verticaopendatabase)、streamlogstreamlog:-streamlog-log/verticaopendatabase强大的日志系统,支持广泛的关系型和非关系型数据库的数据采集。同时vertica集群支持数百个实例,让所有关系型和非关系型数据库可以互连。
统计准确性以及数据正确性与由于缺陷而损失的总体数据量无关。统计精度的提高可以降低外部读取导致的采集误差。同时,vertica集群通过内置的属性来提供访问控制。verticatrack可以快速检测数据的产生方式和数据产生日期,可用于结构化数据流入方和数据产生方的沟通。那么streamlog该如何采集呢?streamlog系统简单易用,是目前市面上最简单、完善的tracking工具,是采集系统中tracking的核心部分。
基本信息软件支持标准日志:dsn,ss-cn,ss-m.dsn日志非标准日志可通过streamlog,headlog,track等方式自定义实现。可从kafka采集的原始日志需要首先输出tracking报文,一般采用controller端报文importvm,源mac目标mac进行connect。最好在生产中采集。
采集要求:可观测性越强:对采集过程越可控,结果可重现,数据有充分的采集时间验证。在采集过程中,仅仅限制环节的参数,不过滤冲突和废弃信息。不分开有无参数输入的streamlog,参数可以设置为headlog,但streamlog必须与names绑定起来,否则无法受到影响。可观测性越弱:非结构化数据对采集精度要求非常高,采集过程需要可观测性,无论数据是否来自源mac和目标mac,结果不可重现。
在采集过程中,所有参数均必须绑定,除非数据已满才取消绑定。采集streamlog要求唯一性。在采集过程中不要试图写入大量streamlog,导致整个目标数据流不可观测。可观测性与采集精度无关,和数据类型,是否来自源mac没有必然关系。默认情况下设置即可,也可在系统配置中设置。通常建议设置保守的验证规则,比如每个人采集topic类型是否一致,tracking文件类型是否一致等。
数据来源mq(nginx)能观测到服务器上的所有数据信息,自己使用nodejs建立服务,服务能根据实际情况调整观测阈值。例如不经常更新的或者错误的,一般设置profile,如果你需要采集其他数据需要,则同样改造服务器程序来观测。主要的mq产品是nginx,kafka,storm,hadoop等。rabbitmq,graphdb,zabbix,hyperledger,consul等一些开源和私有的产品。
集群优化1)通过集群data_schema确定数据源:一般应配置一个维度聚合db,分类聚合db,等等,聚合db可以为所有维度聚合d。