淘宝搜索引擎优化ppt(阿里云实时计算产品案例amp;解决方案汇总(组图))

优采云 发布时间: 2021-08-28 09:19

  淘宝搜索引擎优化ppt(阿里云实时计算产品案例amp;解决方案汇总(组图))

  案例和解决方案摘要页:

  阿里云实时计算产品案例&解决方案总结

  1.背景介绍

  搜索引擎的出现,大大降低了人们查找信息的难度。它已经渗透到生活和工作的方方面面。一些应用程序简要列出如下:

  搜索引擎的关键是让用户找到他们需要的信息。其整体结构如下:

  

  从图中可以看出,一个搜索引擎从大的角度来看主要由两部分组成。一是提供在线搜索服务,二是离线对原创数据进行索引。索引是信息搜索的先决条件。 .

  注:这里的线上线下主要是指是否直接为用户服务。直接为用户服务的部分称为在线系统,其他为在线系统服务的系统称为离线系统。例如,搜索是在线系统,APP是在线系统,那么为搜索建立索引的系统称为离线系统,为APP计算某些数据指标的系统称为离线系统。

  今天我们将专注于索引系统。我们经常使用谷歌、百度等,索引可能要等网页变化几天后才会更新。但是,在一些业务场景中,索引时间必须尽可能的缩短:比如广告。系统,参考广告场景下的实时计算,如果广告主线下广告后没有及时更新索引,那么投放系统还是会投放这些线下广告,浪费资金;再比如产品搜索系统,商家修改价格后,一定要及时反映在索引中,否则用户会觉得搜索结果与真实产品不一致;

  2.Index:批量索引和实时索引

  Index 是指将原创数据更新为索引的过程。在很多情况下,并不是直接覆盖原创数据,而是在这个过程中拼接最终文档。比如电商搜索会显示商品信息、商品销量、店铺信息等,而这些信息存在于多个商家数据库中,所以在索引的过程中需要将这些信息拼接在一起:

  

  一般情况下,索引需要不断更新。这时候有两种更新方式:

  实时更新

  很多情况下,这两种方式都会存在:定期全量更新,实时增量更新,但是两者的协调会是个大问题,需要根据业务情况来设计:

  这个有点像之前介绍数据仓库的Lambda架构和Kappa架构,参考

  3.Batch 和增量集成实时索引架构

  系统架构如下:

  增量部分保持不变,但是整个部分需要修改,定时调度,每次导出全量数据,增量发送到消息队列,这样增量逻辑就可以了重复使用。

  4.一个实现

  接下来介绍一个基于云产品的简单实现方案。

  

  程序的数据流如上图所示:

  这样就完成了一个实时索引项目。

  Logtail 是日志服务(SLS)采集Agent 的日志。具体请参考日志服务产品的官方文档。 采集Binlog的原理是:伪装成Mysql的slave节点,将dump协议发送给MySQL master; MySQL master收到dump请求后,会实时推送自己的Binary log到Logtail。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线