【自我在PMCAFF上的回答】相关性评价指标和量化评价方法

优采云 发布时间: 2021-07-17 02:18

  【自我在PMCAFF上的回答】相关性评价指标和量化评价方法

  原文来自我在 PMCAFF 上的回答:/discuss/answer/797240186180672/?newwindow=1

  搜索结果的好坏体现在相关性上,即搜索结果与查询词的相关性。

  查资料了解常用的相关性评价指标和定量评价方法:

  一、Cranfield 评价系统(离线人工建模)

  克兰菲尔德评估系统由四个环节组成:

  提取有代表性的查询词,形成一组合适的量表。对于查询样本集,从检索系统的语料库中找到对应的结果,将查询词和带有标注信息的语料进行标注(一般是手工完成)进入检索系统,使用预定义的评价计算公式进行用系统反馈的检索结果的数值方法评价检索系统结果与标记的理想结果的接近程度

  以电商网站京东为例:

  您可以选择本站前1000个搜索热词作为采集

  您可以选择参与所有在线(即上架状态)sku集合的查询

  通常的方式是通过人工标注来构建查询答案集,但是非常耗时费力。

  国际文本信息检索会议(TREC)提出了结果池过滤的人工标注方法:即对于某个查询,使用多个信息检索系统返回前N个结果,并将这些结果放在一起形成结果池列表。手动注释池中的结果文档以确定它们与查询的相关性。

  在京东网站上搜索,针对某个查询词,采用多种检索系统/权重规则进行查询,对得到的结果集进行人工筛选,给出近乎标准化的答案集。

  一个。准确率-召回率法

  

  

  对于京东网站这样的电商企业,用户一般只关心前几页的搜索结果,而不是一共返回了多少sku或spu,即用户不关心召回率.

  其实人工标注的结果集是不完整的,所以对于评价指标,一般可以采用“Bpref”评价指标:即如果正确答案在结果集中排在错误答案之前,检索更准确。

  

  

  R:手动标记的第一个R相关产品的数量;

  SPU1:不相关产品的集合;

  SPU2:相关产品集合;

  b、P@N计算方法

  P@N本身是Precision@N的缩写,指的是在考虑位置因素的情况下,针对特定查询检测前N个结果的准确率。比如单次搜索结果中的前50个spu,如果有40个spu是相关产品,则P@50=40/50=0.8。

  使用所有查询的P@N数据计算算术平均值来判断系统整体搜索结果的质量。对于N的选择,用户通常只关注搜索结果的前几个结果。所以像京东网站这样的电商,一般可以取前2-3页的数据,所以N可以取P@120或者P@180等的值。

  c、MAP计算方法

  MAP 方法是MeanAveragePrecison,它是平均准确度方法的缩写。它的定义是求检索后每个相关文档的准确率平均值的算术平均值。系统检索到的相关产品越高(排名越高),MAP就应该越高。如果系统没有返回相关产品,则准确率默认为0。

  例如:假设有两个搜索页面:

  第 1 页有 4 个相关产品,第 2 页有 5 个相关产品。系统检索第 1 页的 4 个相关产品,它们的排名分别为 1、2、4 和 7;对于第 2 页,检索 3 个相关产品,其排名为 1、3 和 5。

  对于第1页,平均准确率MAP计算公式为:(1/1+2/2+3/4+4/7)/4=0.83.

  对于第2页,平均准确率MAP计算公式为:(1/1+2/3+3/5+0+0)/5=0.45.

  那么 MAP=(0.83+0.45)/2=0.64.

  对于京东来说,搜索结果页面每页的产品数量是固定的,但检索到的相关产品与手动预设的结果集相关。

  d、DCG法

  DCG是英文Discountedcumulativegain的缩写,中文可译为“折扣增益值”。

  每个结果的相关性以等级来衡量。考虑结果的位置,位置越高,重要性越高。排名越高(即好成绩),数值应该越高,否则给予惩罚。

  例如,结果可以分为 3 个级别:Good、Fair、Bad。

  对应的分数rel为:Good:3Fair:2Bad:1

  其中CG是指搜索结果列表中所有结果的排名对应的分数总和。比如一个搜索结果列表页面有P个结果,CG定义为:reli是第i个结果的得分。 CG 统计不会影响搜索结果的排名。 CG分数高只能说明结果页的整体质量比较高,但并不代表算法排名的好坏。

  

  

  

  

  IDCG(ideal DCG)是理想的DCG。首先要得到搜索结果,手动对这些结果进行排序,得到最佳状态后,计算该顺序下查询的DCG,即IDCG。

  比如理想的顺序应该是3,3,2,2,1,那么IDCG=3+3+1.26+1+0.43=8.69

  nDCG=DCG/IDCG=7.62/8.69=0.88。从nDCG的值可以看出当前算法的优化空间。

  

  

  二、自动评估(在线评估)

  a,A/B 测试

  通过自动提取流量导入不同的分支,对应组内的用户可以看到不同产品版本(或不同搜索引擎)提供的结果。

  

  

  对于京东网站这样的电商企业,可以针对同一个搜索引擎,划分不同的搜索引擎,采用不同的加权算法,找到更好的解决方案。

  b、交错测试

  这种方法设计了一个元搜索引擎。用户输入查询后,该查询在多个知名搜索引擎中的查询结果随机混合反馈给用户,进而采集用户的结果点击行为信息。根据用户不同的点击倾向,可以判断搜索引擎返回结果的优劣。

  对于京东来说,不同权重的结果(需要标注)在同一个页面展示给用户,根据用户点击的结果找到最优解。

  三、用户行为分析(线上+线下结合)

  分为用户查询需求分析、用户点击行为分析展开说明:

  在用户查询链接中,可以分析查询词的长度、查询词修改率、查询推荐点击率:

  一个。查询字长分析

  记录分词前用户查询词的长度、查询次数、时间、用户ID,并根据数据计算出用户查询词的最佳长度,可作为参考依据用于人工标注Cranfield评价系统的答案结果集,同时作为人工设置推荐关键词和搜索优化的参考依据。

  B.查询词修改率分析

  当用户提交查询,对返回的结果不满意,或者想获取更多的产品信息时,用户会重新发起搜索。这个过程形成了用户的查询修改行为。

  可以记录用户对不同页面(首页、分类页面、搜索结果页面等)的二次查询行为数据。如果用户的查询修改率高,说明当前搜索用户满意度低,可能的原因是:

  搜索结果不准确

  之前用户的搜索词描述不准确

  用户需求不明确,购物目标不强

  c.查询推荐点击率分析

  

  

  

  

  

  

  以京东为例。有联想词、历史记录词、热搜词推荐。记录用户点击不同词的次数,评估每个功能点的重要性,可作为关键优化功能的参考。

  用户在搜索结果页面的点击行为反映了用户对搜索结果的判断,也用于挖掘相关的“隐性反馈”信息。具体来说,可以从以下几个方面挖掘用户对搜索结果的评价:

  一个。查询点击率分析

  记录用户在搜索结果页面点击产品的概率:即用户是否点击搜索结果页面。

  分析用户搜索但未点击结果的页面。用户不点击产品的可能原因有:

  通过用户点击分析,可以判断用户的信息需求,也可以判断用户对搜索结果的满意度。

  B.首次点击时间分析

  指搜索引擎返回搜索结果页面到用户第一次点击结果页面上的产品的时间间隔。

  这段时间是用户浏览搜索结果列表中信息的时间,反映了搜索结果的表现:

  c.点击位置分析

  如下图,根据搜索结果页面,给产品窗口槽号1234......

  

  

  以搜索词为维度,统计用户在搜索结果页面点击的具体位置的比例

  一句话,在一定时间内,展示前200个点击趋势

  

  

  根据程序预设的点击位置分布图,与实际点击情况进行对比,指出差异,分析,调整权重优化搜索。

  d。点击SKU分析

  分析不同时间段热搜页面sku的点击次数,对变化较大的地方进行详细分析,判断搜索的准确性

  对于某个SKU,可以查看一定时间段内(近7天、最近15天、最近30天)的点击次数

  

  

  此外,贝叶斯学习模型、信息熵等方法也可以作为评价方法,在此不再赘述。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线