实时文章采集(项目架构分析日志数据采集:根据数据进行可视化筛选 )
优采云 发布时间: 2022-02-01 23:17实时文章采集(项目架构分析日志数据采集:根据数据进行可视化筛选
)
项目概况
项目主要通过实时数仓的搭建完成对Flink的进一步掌握和学习。Flink代码是用Java编写的,会涉及到Flink的很多知识点,FlinkCDC,FlinkSQL,航海,丰富的功能等等,习惯了学习Flink,顺便传个仓库还是很不错的。从 FlinkForward2021 的一些进展来看,Flink SQLization 已经势不可挡,流式数据仓库 StreamHouse 也开始缓慢推进。
这里的实时数仓主要是为了提高数据的复用性。见下图,当有大量中间结果时
使用时充分体现了实时数仓的必要性,省去了很多重复计算,提交了实时计算的时效性。
说到数据仓库,数据仓库的分层是分不开的。基于电子商务的实时数仓分层如下:
ods:原创数据,存储业务数据和日志数据
dwd:按数据对象划分,如订单、页面访问量
dim:维度数据
dwm:进一步处理一些数据对象,将其与维度表关联,形成宽表,例如独立访问和跳出行为
dws:根据一个主题轻轻聚合多个事实数据,形成主题宽表
ads:基于数据的可视化过滤器聚合
实时需求
主要分为:每日统计报表或分析图表模块、实时数据监控大屏、数据预警或提示、实时推荐系统。
项目架构分析
记录数据采集