数据搜集系统
优采云 发布时间: 2020-08-17 22:10数据搜集系统
开源比赛火爆报考中,立即报考「赢取亿元奖金」>>>
什么是 Chukwa,简单的说它是一个数据搜集系统,它可以将各种各样类型的数据搜集成适宜 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各类 MapReduce 操作。Chukwa 本身也提供了好多外置的功能,帮助我们进行数据的搜集和整理。
为了愈发简单直观的展示 Chukwa,我们先来看一个假定的场景。假设我们有一个规模很大 ( 牵扯到 Hadoop 的总是很大。。。。) 的网站,网站每天形成数目庞大的日志文件,要搜集,分析这种日志文件可不是件容易的事情,读者可能会想了,做这些事情 Hadoop 挺合适的,很多小型网站都在用,那么问题来了,分散在各个节点的数据如何搜集,采集到的数据假如有重复数据如何处理,如何与 Hadoop 集成。如果自己编撰代码完成这个过程,一来须要耗费不小的精力,二来不可避开的会引入 Bug。这里就是我们 Chukwa 发挥作用的时侯了,Chukwa 是一个开源的软件,有很多聪明的开发者在贡献着自己的智慧。它可以帮助我们在各个节点实时监控日志文件的变化,增量的将文件内容写入 HDFS,同时还可以将数据消除重复,排序等,这时 Hadoop 从 HDFS 中领到的文件早已是 SequenceFile 了。无需任何转换过程,中间纷扰的过程都由 Chukwa 帮我们完成了。是不是太省心呢。这里我们仅仅举了一个应用的事例,它还可以帮我们监控来自 Socket 的数据,甚至定时执行我们指定的命令获取输出数据,等等,具体的可以参看 Chukwa 官方文档。如果这种还不够,我们还可以自己定义自己的适配器来完成愈发中级的功能。