单点模块评测和整体搜索系统的架构和主要模块

优采云 发布时间: 2021-06-25 03:35

  单点模块评测和整体搜索系统的架构和主要模块

  上一篇文章介绍了搜索系统的基本架构和主要模块。本文继续介绍常用搜索系统的评价方法。 wedata24,公众号:WeData365搜索系统架构及主要模块

  搜索系统由多个功能不同的模块组成。多个模块相互配合,始终返回搜索结果。它是一个复杂的多模块系统。不同的模块有相同的部分,也有独特的部分,也可能有一些矛盾的部分。在优化一个模块时,它的影响通常不仅是模块本身,管道也会影响下游模块对最终搜索结果的影响。因此,如何评价搜索系统的质量是一个更为关键的问题。这不仅决定了用户的搜索体验,也决定了如何通过评估发现问题,优化搜索质量。业界主要从单点模块评价和整体搜索系统评价两个角度分别进行评价。前者更关注技术指标,后者更关注业务指标。

  

  

  一、Search单点优化评测

  这种评价主要是为了判断单个模块优化后的影响?效果如何?能否全面上线?

  每个模块都可以抽象出一个特定的机器学习问题。这时可以构建相应的高质量标准测试集,计算一些模型指标来评估优化效果。例如,如果要识别查询中的实体,可以使用标准测试集上每个实体类别的准确率、召回率和 F1 进行评估。再比如搜索结果的排序,通常选择MAP@N、NDCG@N、伤害率等指标。

  Diff rate:衡量单个模块优化的影响,例如同义词优化后与上一版本有不同同义词结果的查询所占的百分比,以及有多少qv流量与上一版本的同义词结果不同。

  胜率:又称SBS评价(side by side),审稿人同时比较新旧版本的结果,并标出“好”、“差”、“一样好”、“一样差” " 根据评价标准来赢率=(good + (as good + as bad)/2)/ALL。一般来说,中奖率大于55%,说明影响比较正面。

  AB 测试

  以上两种评价都需要人参与标注或评价,难免存在一些主观因素。 AB-test是一个比较客观的指标,通过将不同的流量划分到新旧版本,然后观察一段时间的目标指标(搜索比较花式点击率、非点率、第一点位等) .),最后通过指标的变化趋势和是否显着来判断优化是积极的还是消极的。 AB-test结果是业界达成共识的最有说服力的评价方法,最能反映业务指标。是数据驱动优化不可或缺的评价方法。

  一般先把小流量分成小流量实验,小流量验证后,全流量上线。 diff rate和sbs win rate决定是否可以进行小流量实验,ab-test决定是否可以发起全流量。

  二、整体系统评价

  这种评估侧重于衡量整体质量。与单点模块评价相比,一方面需要兼顾技术和产品维度,另一方面是对权威性、相关性、多样性、新颖性等多重优化目标的综合考虑。 .

  根据统计搜索点击日志生成不同时间节点版本的一些指标对比报告,如qv、uv、无结果率、NCR、点击率、top n点击率、第一点位置等。通过观察不同时期、不同流量来源等不同维度的市场指标对比,可以更清晰的把握业务发展和问题。

  如果有竞品,比如医学搜索,可以与搜狗名医、微信医学搜索等产品进行对比评估。评价维度通常有sbs获胜率和结果满意度。这也有助于能够发现与竞品相比的优势,也有助于认识到与竞品相比的不足之处。这里需要注意的时候,因为不同产品背后的文档资源和产品形态是不同的,所以评估时需要特别考虑。一种常见的方法是评估搜索结果是否满足查询的要求。因为无论是什么文档资源或产品形态,其最终目的都是为了满足用户需求。

  另外,从普通用户的角度来看,也有一些主观的评价方法。它来自一种通过长期积累的用户反馈获得的主观评价。这往往是面向用户、最能感知的评价结果​​。比如刚开始做微信搜索的时候,很多在百度上能搜到的东西,微信搜索是找不到的。同时,从结果上看,微信更像是一个关键词搜索工具,比较长的查询结果往往不尽如人意,而百度的结果更聪明。当微信搜索的文档资源积累到一定程度时,用户反映从文档正文中复制了一段进行搜索。这一段对应的原文文章百度上可以查到,微信上查不到。通过这种用户反馈,也可以进行问题分析和诊断,并分类到具体的模块中进行优化。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线