文章实时采集(网站/app的哪个页面的哪些操作发生时,可以跟我们之前的离线日志收集流程)
优采云 发布时间: 2022-01-13 18:07文章实时采集(网站/app的哪个页面的哪些操作发生时,可以跟我们之前的离线日志收集流程)
步骤1:
数据源:例如 网站 或应用程序。很重要的一点是埋点。也就是说,埋点,当网站/app的哪个页面的操作发生时,通过网络请求前端代码(网站,JavaScript;app,android/IOS) , (Ajax ; socket) 将指定格式的日志数据发送到后端服务器。
第2步:
Nginx、后端Web服务器(Tomcat、Jetty等)、后端系统(J2EE、PHP)。至此,其实还是可以和我们之前的离线日志采集流程一样。通过日志传输工具返回并将其放入指定的文件夹中。
连接线(水槽,监控指定文件夹)
第 3 步:
1、HDFS
2、实时数据通常从分布式消息队列集群中读取,例如Kafka;实时数据,实时日志,实时写入消息队列,如Kafka;然后,我们将后端实时数据处理程序(Storm、Spark Streaming)实时从Kafka读取数据并记录日志。然后进行实时计算和处理。卡夫卡
(Kafka,我们的日志数据怎么处理就看你了。你可以每天采集一份,放到flume中,转入HDFS,清洗后放入Hive,搭建离线数据仓库。你也可以每天采集一份.分钟数据,或者每次采集一点点数据,放到一个文件中,然后传到flume,或者直接通过API定制,直接一个一个log进入flume。flume可以配置为向Kafka写入数据)
连接线(实时,主动从Kafka拉取数据)
步骤4:
大数据实时计算系统,例如使用Storm和Spark Streaming开发的系统,可以实时从Kafka中拉取数据,然后对实时数据进行处理计算。这里可以封装大量复杂的业务逻辑,甚至可以调用复杂的机器。学习、数据挖掘、智能推荐算法,进而实现车辆实时调度、实时推荐、广告流量实时统计。