实时文章采集(网站/app的哪个页面的哪些操作发生时,可以跟我们之前的离线日志收集流程)

优采云 发布时间: 2021-09-13 02:18

  实时文章采集(网站/app的哪个页面的哪些操作发生时,可以跟我们之前的离线日志收集流程)

  第 1 步:

  数据源:例如网站 或应用程序。很重要的一点就是埋点。换句话说,埋点,网站/app的哪个页面上发生了哪些操作,前端代码(网站,JavaScript;app,android/IOS)通过网络(Ajax;socket)请求), 将指定格式的日志数据发送到后端服务器。

  第 2 步:

  Nginx、后端web服务器(Tomcat、Jetty等)、后端系统(J2EE、PHP)。到此为止,其实还是可以和我们之前的离线日志采集流程一样的。通过一个日志传输工具到后面,放到指定的文件夹中。

  连接线(水槽,监控指定文件夹)

  第三步:

  1、HDFS

  2、实时数据通常是从分布式消息队列集群中读取的,比如Kafka;实时数据、实时日志,并实时写入消息队列,如Kafka;然后,通过我们的后端实时数据处理程序(Storm、Spark Streaming)从Kafka实时读取数据并记录日志。然后进行实时计算和处理。卡夫卡

  (Kafka,我们的日志数据怎么处理就看你了。你可以每天采集一份,放到flume中,转入HDFS,清理,放到Hive中,搭建离线数据仓库。你也可以每1分钟采集一次数据,或者每采集到一点点数据,放到一个文件中然后传输到flume,或者直接通过API自定义,直接将日志一一输入flume,可以配置flume将数据写入 Kafka )

  连接线(实时,主动从Kafka拉取数据)

  第四步:

  大数据实时计算系统,如使用Storm和Spark Streaming开发的系统,可以实时从Kafka拉取数据,然后对实时数据进行处理和计算,其中大量复杂的业务逻辑可以封装甚至称为复杂的机器学习、数据挖掘和智能推荐算法,进而实现车辆实时调度、实时推荐、广告流量实时统计。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线