采集工具(一下常用的数据采集工具-一下日志采集框架与工具)
优采云 发布时间: 2022-04-15 20:12采集工具(一下常用的数据采集工具-一下日志采集框架与工具)
随着大数据技术体系的发展,越来越多的企业利用大数据技术来支持其业务发展。数据采集作为大数据的起点,是*敏*感*词*动获取数据的重要手段。数据采集的多样性和全面性直接影响数据质量。
企业获取数据的渠道分为内部渠道和外部渠道两种。内部渠道包括自建业务系统,如电商系统、门户网站网站、门户论坛等。外部渠道包括爬虫系统爬取的数据、三方合作平台的数据、公众的数据社交平台。那么如何从这些来源获取数据呢?下面简单介绍一下常用的data采集工具。
结构化数据采集工具。
结构化数据占分析原创数据的很大一部分,其中大部分被预处理到数据仓库中,以进行进一步的多维分析和数据挖掘。常用的数据采集工具有:
1 阿帕奇水槽
支持离线和实时数据导入,是数据集成的主要工具。
2 Apache Sqoop
主要使用JDBC等工具连接关系型数据库和Hadoop生态系统的文件系统。通过配置文件配置双向连接信息后,通过命令完成数据的导入导出。
半结构化数据采集工具
半结构化数据在日志格式中更为常见。对于记录 采集 的工具,更常见的是
1个Logstash
Logstash 与 ElasticSearch 和 Kibana 并称为 ELK,是 采集 日志的黄金搭档。
2 Apache Flume 也主要用于日志文本数据采集。
非结构化数据采集工具
1 数据X
DataX 是一个轻量级的中间件,在关系型数据库中具有出色的导入导出性能。支持多种数据类型的导入导出。
流数据采集工具
1 卡夫卡
卓越的性能和超高的吞吐量。
Binlog日志采集工具
1 运河
基于MySQL数据库的增量日志分析提供增量日志订阅和消费功能。
爬虫采集框架和工具
1 Java 堆栈、Nutch2、WebMagic 等。
2 Python 堆栈、Scrapy、PySpider
3 第三方爬虫工具,优采云、优采云、优采云等。