搜索引擎主题模型优化(近段时间在研究搜索的相关技术涉及到资讯搜索功能的实现)

优采云 发布时间: 2021-12-10 04:00

  搜索引擎主题模型优化(近段时间在研究搜索的相关技术涉及到资讯搜索功能的实现)

  大纲

  最近在研究搜索的相关技术,工作主要涉及信息搜索功能的实现。我们采用了elasticsearch搜索引擎,整理了两篇关于elasticsearch的文章:文章:es基础和es进阶 1.由于搜索功能需要迭代,作者继续研究搜索原理和性能深度优化。本文主要研究以下几点:

  什么是搜索

  搜索引擎的技术建设主要包括三个部分:

  (1) 对查询的理解

  (2) 对内容(文档)的理解

  (3)查询和内容(文档)的匹配排序

  

  图片

  搜索通用评价指标基本指标:

  召回率(Recall)=检测到的相关文档数/相关文档数,也叫召回率,R∈[0,1]

  Precision=检测到的相关文档数/检测到的文档数,也称为准确率,P∈[0,1]

  F值:召回率R和正确率P的调和平均值

  搜索发展阶段:

  什么是意图识别

  使用分类方法将我们常说的句子或查询分类成对应的意图类型

  属于“理解查询”部分

  本质上是一个分类问题

  意图识别搜索的一般流程:

  S1. 用户的原创查询是“michal jrdan”

  S2. Query Correction 模块进行拼写错误纠正的结果是:“Michael Jordan”

  S3. Query Suggestion 模块的下拉提示结果为:“Michael Jordan berkley”和“Michael Jordan NBA”,假设用户选择“Michael Jordan berkley”

  S4. Query Expansion 模型查询扩展后,结果为:“迈克尔乔丹伯克利”和“迈克尔I.乔丹伯克利”

  S5. Query Classification 模块进行查询分类的结果为:academic

  S6. 最后,Semantic Tagging模块进行命名实体识别和属性识别的结果是:[Michael Jordan:人名][berkley:location]:academic

  意图识别的前提

  意图划分问题:技能/领域

  用户需求分类:

  (1) 导航

  (2) 信息

  (3) 交易

  概念介绍:

  用户与搜索引擎之间完整的交互过程称为搜索会话。Session中提供的信息包括:用户查询(Query),用户点击的搜索结果的标题(Title),如果用户在会话期间改变了查询词(例如来自Query1 -->Query2),后续的搜索和点击都会被记录下来,直到用户离开搜索,会话结束。

  意图识别方法

  1.词汇穷举法/规则分析法

  2. 基于查询的点击日志 - 一般搜索日志记录会在结果中收录时间-查询字符串-点击URL记录-位置等信息。

  3.机器学习方法(基于规则挖掘,基于Bayes、LR、SVM等传统分类模型)-分类问题

  查询分类

  eg:识别每个实体词的属性,去索引精确匹配对应的字段,从而提高recall的准确率

  4.基于神经网络(深度学习)--FastText

  意图识别难点

  1、 输入不规范。上一篇说过,不同的用户对同一个请求有不同的表达。

  2、多用意,查询词是:“水”,是矿泉水,还是女生用的乳液。

  3、数据冷启动。当用户行为数据较少时,很难获得准确的意图。

  4、 没有固定的评价标准。pv、ipv、ctr、cvr等量化指标是对搜索系统的整体评价。对于用户意图的预测,目前还没有标准的量化指标。

  查询重写

  查询重写、类别关联、命名实体识别和

  查询重写包括:

  查询纠错 - 如果搜索引擎返回空结果/或结果太少,此时应添加拼写错误纠正处理

  查询扩展:

  例如。“迈克尔·乔丹·伯克利”和“迈克尔·I·乔丹·伯克利”

  (1) 同义词扩展表

  (2) 使用词向量进行同义词扩展

  (3) 如果查询没有相应返回,将根据用户历史数据扩展原查询

  查询删除 - 确定要丢弃的单词/单词(实体识别)

  参考

  搜索意图识别分析

  信息检索中的各种评价指标

  如何使用桨叶进行意图识别打开

  将中文自然语言转化为结构化数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线