搜索引擎主题模型优化(近段时间在研究搜索的相关技术涉及到资讯搜索功能的实现)
优采云 发布时间: 2021-12-10 04:00搜索引擎主题模型优化(近段时间在研究搜索的相关技术涉及到资讯搜索功能的实现)
大纲
最近在研究搜索的相关技术,工作主要涉及信息搜索功能的实现。我们采用了elasticsearch搜索引擎,整理了两篇关于elasticsearch的文章:文章:es基础和es进阶 1.由于搜索功能需要迭代,作者继续研究搜索原理和性能深度优化。本文主要研究以下几点:
什么是搜索
搜索引擎的技术建设主要包括三个部分:
(1) 对查询的理解
(2) 对内容(文档)的理解
(3)查询和内容(文档)的匹配排序
图片
搜索通用评价指标基本指标:
召回率(Recall)=检测到的相关文档数/相关文档数,也叫召回率,R∈[0,1]
Precision=检测到的相关文档数/检测到的文档数,也称为准确率,P∈[0,1]
F值:召回率R和正确率P的调和平均值
搜索发展阶段:
什么是意图识别
使用分类方法将我们常说的句子或查询分类成对应的意图类型
属于“理解查询”部分
本质上是一个分类问题
意图识别搜索的一般流程:
S1. 用户的原创查询是“michal jrdan”
S2. Query Correction 模块进行拼写错误纠正的结果是:“Michael Jordan”
S3. Query Suggestion 模块的下拉提示结果为:“Michael Jordan berkley”和“Michael Jordan NBA”,假设用户选择“Michael Jordan berkley”
S4. Query Expansion 模型查询扩展后,结果为:“迈克尔乔丹伯克利”和“迈克尔I.乔丹伯克利”
S5. Query Classification 模块进行查询分类的结果为:academic
S6. 最后,Semantic Tagging模块进行命名实体识别和属性识别的结果是:[Michael Jordan:人名][berkley:location]:academic
意图识别的前提
意图划分问题:技能/领域
用户需求分类:
(1) 导航
(2) 信息
(3) 交易
概念介绍:
用户与搜索引擎之间完整的交互过程称为搜索会话。Session中提供的信息包括:用户查询(Query),用户点击的搜索结果的标题(Title),如果用户在会话期间改变了查询词(例如来自Query1 -->Query2),后续的搜索和点击都会被记录下来,直到用户离开搜索,会话结束。
意图识别方法
1.词汇穷举法/规则分析法
2. 基于查询的点击日志 - 一般搜索日志记录会在结果中收录时间-查询字符串-点击URL记录-位置等信息。
3.机器学习方法(基于规则挖掘,基于Bayes、LR、SVM等传统分类模型)-分类问题
查询分类
eg:识别每个实体词的属性,去索引精确匹配对应的字段,从而提高recall的准确率
4.基于神经网络(深度学习)--FastText
意图识别难点
1、 输入不规范。上一篇说过,不同的用户对同一个请求有不同的表达。
2、多用意,查询词是:“水”,是矿泉水,还是女生用的乳液。
3、数据冷启动。当用户行为数据较少时,很难获得准确的意图。
4、 没有固定的评价标准。pv、ipv、ctr、cvr等量化指标是对搜索系统的整体评价。对于用户意图的预测,目前还没有标准的量化指标。
查询重写
查询重写、类别关联、命名实体识别和
查询重写包括:
查询纠错 - 如果搜索引擎返回空结果/或结果太少,此时应添加拼写错误纠正处理
查询扩展:
例如。“迈克尔·乔丹·伯克利”和“迈克尔·I·乔丹·伯克利”
(1) 同义词扩展表
(2) 使用词向量进行同义词扩展
(3) 如果查询没有相应返回,将根据用户历史数据扩展原查询
查询删除 - 确定要丢弃的单词/单词(实体识别)
参考
搜索意图识别分析
信息检索中的各种评价指标
如何使用桨叶进行意图识别打开
将中文自然语言转化为结构化数据