实时文章采集(项目架构分析日志数据采集:根据数据进行可视化筛选 )

优采云 发布时间: 2022-02-01 23:17

  实时文章采集(项目架构分析日志数据采集:根据数据进行可视化筛选

)

  项目概况

  项目主要通过实时数仓的搭建完成对Flink的进一步掌握和学习。Flink代码是用Java编写的,会涉及到Flink的很多知识点,FlinkCDC,FlinkSQL,航海,丰富的功能等等,习惯了学习Flink,顺便传个仓库还是很不错的。从 FlinkForward2021 的一些进展来看,Flink SQLization 已经势不可挡,流式数据仓库 StreamHouse 也开始缓慢推进。

  这里的实时数仓主要是为了提高数据的复用性。见下图,当有大量中间结果时

  使用时充分体现了实时数仓的必要性,省去了很多重复计算,提交了实时计算的时效性。

  

  说到数据仓库,数据仓库的分层是分不开的。基于电子商务的实时数仓分层如下:

  ods:原创数据,存储业务数据和日志数据

  dwd:按数据对象划分,如订单、页面访问量

  dim:维度数据

  dwm:进一步处理一些数据对象,将其与维度表关联,形成宽表,例如独立访问和跳出行为

  dws:根据一个主题轻轻聚合多个事实数据,形成主题宽表

  ads:基于数据的可视化过滤器聚合

  实时需求

  主要分为:每日统计报表或分析图表模块、实时数据监控大屏、数据预警或提示、实时推荐系统。

  项目架构分析

  

  记录数据采集

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线