实时文章采集(网站/app的哪个页面的操作发生时,怎么处理)
优采云 发布时间: 2021-09-21 03:12实时文章采集(网站/app的哪个页面的操作发生时,怎么处理)
1.数据源:如网站或app。嵌入点非常重要。也就是说,当埋地时,当网站 / app的操作发生时,发生网站 / app中的哪一个,前端代码(网站,javascript; app,android / ios),由此网络请求(ajax;套接字),以指定格式的日志数据发送到后台。
2. nginx,背景web服务器(tomcat,jetty),后台系统(J2EE,PHP)。在此步骤中,它仍然与我们之前的脱机日志采集过程相同。步行到指定的文件夹后拍摄日志传输工具。
flume,监视指定的文件夹
3. Kafka,我们的日志数据,如何处理自己,决定自己。您可以每天采集副本,将其放入Flume,转移到HDFS,然后将其放入Hive,建立一个离线数据仓库。
也可以采集1分钟,或将其放入文件中,然后转移到水槽,或自定义API直接进入水槽。您可以将Flume配置为将数据写入Kafka
4.实时数据,通常从分布式消息队列集群中读取,例如kafka;实时数据,实时日志,实时写入消息队列,如Kafka;然后,我们的后端实时数据处理程序(Storm,Spark Streaming),实时从Kafka读取数据,日志日志。然后执行实时计算和处理。
5.实时,主动从kafka提取数据
6.大数据实时计算系统,如风暴,火花流,可以实时从kafka拉动数据,然后处理并计算实时数据,在这里您可以封装大量的复杂业务逻辑,甚至呼叫复杂机学习,数据挖掘,智能推荐算法,然后实时车辆调度,实时推荐。