采集工具(一下常用的数据采集工具-一下日志采集框架与工具)

优采云 发布时间: 2022-04-15 20:12

  采集工具(一下常用的数据采集工具-一下日志采集框架与工具)

  随着大数据技术体系的发展,越来越多的企业利用大数据技术来支持其业务发展。数据采集作为大数据的起点,是*敏*感*词*动获取数据的重要手段。数据采集的多样性和全面性直接影响数据质量。

  企业获取数据的渠道分为内部渠道和外部渠道两种。内部渠道包括自建业务系统,如电商系统、门户网站网站、门户论坛等。外部渠道包括爬虫系统爬取的数据、三方合作平台的数据、公众的数据社交平台。那么如何从这些来源获取数据呢?下面简单介绍一下常用的data采集工具

  结构化数据采集工具

  结构化数据占分析原创数据的很大一部分,其中大部分被预处理到数据仓库中,以进行进一步的多维分析和数据挖掘。常用的数据采集工具有:

  1 阿帕奇水槽

  支持离线和实时数据导入,是数据集成的主要工具。

  2 Apache Sqoop

  主要使用JDBC等工具连接关系型数据库和Hadoop生态系统的文件系统。通过配置文件配置双向连接信息后,通过命令完成数据的导入导出。

  半结构化数据采集工具

  半结构化数据在日志格式中更为常见。对于记录 采集 的工具,更常见的是

  1个Logstash

  Logstash 与 ElasticSearch 和 Kibana 并称为 ELK,是 采集 日志的黄金搭档。

  2 Apache Flume 也主要用于日志文本数据采集。

  非结构化数据采集工具

  1 数据X

  DataX 是一个轻量级的中间件,在关系型数据库中具有出色的导入导出性能。支持多种数据类型的导入导出。

  流数据采集工具

  1 卡夫卡

  卓越的性能和超高的吞吐量。

  Binlog日志采集工具

  1 运河

  基于MySQL数据库的增量日志分析提供增量日志订阅和消费功能。

  爬虫采集框架和工具

  1 Java 堆栈、Nutch2、WebMagic 等。

  2 Python 堆栈、Scrapy、PySpider

  3 第三方爬虫工具,优采云、优采云、优采云等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线