电商实时数仓,项目分为以下几层/Hive

优采云 发布时间: 2021-08-01 05:07

  电商实时数仓,项目分为以下几层/Hive

  一、电商实时数仓介绍1.1、常见实时计算与实时数仓对比

  普通的实时计算优先考虑时效性,所以直接从数据源采集通过实时计算得到结果。这样比较省时,但缺点是没有沉淀计算过程中的中间结果。因此,当面对大量的实时需求时,计算的复用性较差,开发成本随需求的增加呈线性增长。

  

  实时数据仓库基于一定的数据仓库概念,对数据处理过程进行规划和层次化,以提高数据的可复用性。

  

  1.2 实时电子商务数据仓库,项目分为以下几层

  ➢ 消耗臭氧层物质

  ➢ DWD

  ➢ 变暗

  ➢ DWM

  ➢ DWS

  ➢ 广告

  二、实时需求概览2.1 离线计算与实时计算对比

  离线计算:表示在计算开始前所有输入数据都是已知的,输入数据不会发生变化。一般计算量越大,计算时间越长。例如今天早上一点,从昨天累积的日志中计算出需要的结果。最经典的是MR/Spark/Hive;

  一般情况下,报表是根据前一天的数据生成的。统计指标和报告虽然很多,但对时效性不敏感。从技术操作来看,这部分是批量操作。即基于一定范围内的数据进行一次计算。

  实时计算:输入数据可以通过序列化的方式一个一个的输入和处理,也就是说不需要一开始就知道所有的输入数据。与离线计算相比,运行时间短,计算量相对较小。强调计算过程的时间要短,即调查时给出结果。

  主要侧重于对当天数据的实时监控。一般来说,业务逻辑比离线需求简单,统计指标较少,但更注重数据和用户交互的时效性。从技术操作来看,这部分属于流处理操作。根据数据源的不断到达进行实时计算。

  2.2 实时需求类型2.2.1 每日统计报表或分析图需要收录当天的部分

  

  对于网站的日常业务运营和管理,如果仅仅依靠离线计算,数据的时效性往往不尽如人意。通过实时计算获得日、分、秒甚至亚秒级的数据,让企业更容易快速响应和调整业务。

  所以实时计算的结果往往会与离线数据结合或展示在 BI 或统计平台中进行比较。

  2.2.2 实时数据大屏监控

  

  与 BI 工具或数据分析平台相比,大数据屏幕是一种更直观的数据可视化方式。尤其是一些大的促销活动,已经成为一种必不可少的营销手段。

  还有一些特殊的行业,比如交通、电信等行业,所以大屏监控几乎是必不可少的监控方式。

  2.2.3 数据警告或提醒

  通过大数据实时计算得到的一些风控预警和营销信息提示,可以快速让风控或营销部分得到信息,以便采取各种应对措施。

  例如,如果用户在电子商务和金融平台上进行一些非法或欺诈的操作,实时计算大数据可以快速过滤出情况并发送到风控部门进行处理,甚至自动阻止它。或者如果检测到用户的行为对某些产品有强烈的购买意愿,则可以将这些“商机”推送给客服,让客服主动跟进。

  2.2.4 实时推荐系统

  实时推荐是根据用户自身的属性,结合当前的访问行为,通过实时推荐算法计算,将用户可能喜欢的产品、新闻、视频等推送给用户用户。

  这类系统一般由用户画像批处理加上用户行为分析的流处理组合而成。

  三、Statistical Architecture Analysis3.1 离线架构

  

  3.2、实时架构

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线