搜索引擎主题模型优化(几种探究用户搜索意图识别的主要目的(一)(组图))

优采云 发布时间: 2021-09-12 14:04

  搜索引擎主题模型优化(几种探究用户搜索意图识别的主要目的(一)(组图))

  相同的搜索查询对于不同的用户可能有不同的需求。搜索意图识别的主要目的是探索用户查询背后隐藏的搜索意图。常见的搜索意图分类包括导航搜索(Navigational)、信息搜索(informational)和交易搜索(transactional)。在此基础上,雅虎研究人员做了详细描述,可分为:导航型、信息型(直接、间接、建议、定位、列表型)、资源型(下载型、娱乐型、互动型、获取型) .

  下面介绍几种用户搜索意图识别的方法。

  2.2.1搜索日志挖掘

  搜索日志是搜索引擎对用户行为的记录,可以挖掘有价值的数据,帮助搜索引擎提高搜索质量。查询日志在使用前需要转换为中间数据。常见的中间数据包括:查询会话、点击地图、查询地图。

  查询会话(query session):记录用户在短时间内连续多次发出查询的日志称为查询会话。这些查询具有一定的语义相关性,可以应用于相关推荐等搜索应用。

  点击图:用户搜索并点击 URL 以构建点击图。这是查询节点和URL节点之间的有向边的二部图,一般以点击次数作为边的权重。可以从点击图中挖掘出大量语义相关信息。

  查询图:构造查询之间关系的数据表示。您可以通过查询之间的重叠词数、相同的会话关系、点击地图中常见的点击网址、点击地图网址的链接关系、点击地图中页面的相似内容来查找相似度查询之间。

  2.2.2 相关搜索

  相关搜索是查询推荐,向用户推荐其他与输入查询语义相关的查询,引导用户更准确地表达查询需求。常用的推荐方法有基于会话的方法和基于点击地图的方法。

  基于查询会话的方法是将搜索日志转化为大量查询会话,利用关联规则对会话进行统计处理,挖掘出相关的搜索结果。缺点是对话难以准确切入,难以区分不同用户之间的查询关联。

  基于点击图的方法思路:如果两个查询对应的点击URL有很大比例是相同的,可以将查询作为相互推荐。

  2.2.3检查纠错

  自动更正用户的错误查询并提高搜索结果的质量。纠错分为两个步骤。首先调用字典识别错误,然后纠正错误。常见的纠错方法有两种:编辑距离和噪声通道模型。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线