文章实时采集(网站/app的哪个页面的哪些操作发生时，可以跟我们之前的离线日志收集流程)

优采云发布时间: 2022-01-13 18:07

　　步骤1：

　　数据源：例如网站或应用程序。很重要的一点是埋点。也就是说，埋点，当网站/app的哪个页面的操作发生时，通过网络请求前端代码（网站，JavaScript；app，android/IOS） , (Ajax ; socket) 将指定格式的日志数据发送到后端服务器。

　　第2步：

　　Nginx、后端Web服务器（Tomcat、Jetty等）、后端系统（J2EE、PHP）。至此，其实还是可以和我们之前的离线日志采集流程一样。通过日志传输工具返回并将其放入指定的文件夹中。

　　连接线（水槽，监控指定文件夹）

　　第 3 步：

　　1、HDFS

　　2、实时数据通常从分布式消息队列集群中读取，例如Kafka；实时数据，实时日志，实时写入消息队列，如Kafka；然后，我们将后端实时数据处理程序（Storm、Spark Streaming）实时从Kafka读取数据并记录日志。然后进行实时计算和处理。卡夫卡

　　（Kafka，我们的日志数据怎么处理就看你了。你可以每天采集一份，放到flume中，转入HDFS，清洗后放入Hive，搭建离线数据仓库。你也可以每天采集一份.分钟数据，或者每次采集一点点数据，放到一个文件中，然后传到flume，或者直接通过API定制，直接一个一个log进入flume。flume可以配置为向Kafka写入数据）

　　连接线（实时，主动从Kafka拉取数据）

　　步骤4：

　　大数据实时计算系统，例如使用Storm和Spark Streaming开发的系统，可以实时从Kafka中拉取数据，然后对实时数据进行处理计算。这里可以封装大量复杂的业务逻辑，甚至可以调用复杂的机器。学习、数据挖掘、智能推荐算法，进而实现车辆实时调度、实时推荐、广告流量实时统计。

0

2022-01-13

文章实时采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章实时采集(网站/app的哪个页面的哪些操作发生时，可以跟我们之前的离线日志收集流程)

0 个评论

发起人

AI时代内容工厂

文章实时采集(网站/app的哪个页面的哪些操作发生时，可以跟我们之前的离线日志收集流程)

0 个评论

发起人

相关问题