实时文章采集(电商实时数仓的比较离线计算与实时需求种类 )
优采云 发布时间: 2022-01-20 20:02实时文章采集(电商实时数仓的比较离线计算与实时需求种类
)
一、电商实时数仓介绍1.1、普通实时计算与实时数仓对比
普通实时计算优先考虑及时性,所以直接从数据源采集通过实时计算得到结果。这样比较省时,但缺点是计算过程中的中间结果没有沉淀出来,所以在面对大量实时性需求时,计算的复用性较差,开发成本线性增加随着需求的增加。
实时数仓基于一定的数据仓库概念,对数据处理过程进行规划和分层,以提高数据的可重用性。
1.2 实时电商数据仓库,项目分为以下几层
➢ 消耗臭氧层物质
➢ DWD
➢ 昏暗
➢ DWM
➢ DWS
➢ ADS
二、实时需求概览2.1 离线与实时计算对比
离线计算:即在计算开始前所有输入数据都是已知的,输入数据不会改变。一般计算量大,计算时间长。例如,今天早上 1 点,从昨天积累的日志中计算出所需的结果。最经典的是MR/Spark/Hive。通常,报告是根据前一天的数据生成的。统计指标和报表虽多,但对时效性不敏感。从技术操作上看,这部分属于批量操作。即一次计算是基于一定范围的数据。
实时计算:输入数据可以以序列化的方式一个一个地输入和处理,也就是说一开始不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量较小。强调计算过程的时间要短,即在调查的那一刻给出结果。主要关注当日数据的实时监控。通常,业务逻辑比线下需求简单,统计指标较少,但更注重数据的及时性和用户的交互性。从技术操作来看,这部分属于流处理的操作。
2.2 实时需求类型2.2.1 每日统计报表或分析图表需收录当日
对于日常的企业和网站运营管理来说,如果仅仅依靠离线计算,数据的时效性往往不尽如人意。通过实时计算获取日、分、秒甚至亚秒级的数据,让企业更容易快速响应和调整业务。
因此,实时计算结果往往与线下数据相结合或展示在BI或统计平台中。
2.2.2 实时数据大屏监控
大数据屏幕是比 BI 工具或数据分析平台更直观的数据可视化方式。尤其是一些大型的促销活动,已经成为必备的营销手段。此外,还有一些特殊的行业,比如交通、电信行业,那么大屏监控几乎是必不可少的监控手段。
2.2.3 数据警告或提醒
一些通过大数据实时计算得到的风控预警和营销信息提示,可以让风控或营销部门快速获取信息,从而采取各种应对措施。比如用户在电商、金融平台进行一些违法或欺诈的操作,大数据的实时计算可以快速筛选出情况并发送给风控部门处理,甚至自动屏蔽它。或者检测到用户的行为对某些产品有强烈的购买意愿,那么可以将这些“商机”推送给客服部,让客服主动跟进。
2.2.4 实时推荐系统
实时推荐是根据用户自身属性结合当前访问行为,通过实时推荐算法计算,将用户可能喜欢的产品、新闻、视频等推送给用户。这类系统一般由用户画像的批处理和用户行为分析的流处理组成。
三、统计架构分析3.1 离线架构
3.2、实时架构