搜索引擎进行信息检索的优化策略方法主要有哪些?
优采云 发布时间: 2022-09-20 16:25搜索引擎进行信息检索的优化策略方法主要有哪些?
搜索引擎进行信息检索的优化策略方法主要有“词向量法”“候选词引导法”以及各种变形方法等。每种搜索引擎都有相对应的检索策略,自然搜索引擎的检索策略更加复杂,标准不一,其中包括网页的检索与分类、候选词检索、关键词分析等。
一、webtopic的检索方法1.首先是常用的基于文档的方法,
3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(独热图)搜索,即可以通过比较两个文档找到topics,对独热图进行匹配,从而让用户找到最佳检索结果。4.geohash,是去掉了所有相同点的余弦值来估计稀疏性。
5.winding搜索:对于从文档中提取有关词进行匹配,利用hardn-grams对top-kkeywords进行分类,从而找到下一个、甚至最可能的topkeywords。6.springerqualitycontrol:标注namematching。springerqualitycontrol是做有关词进行质量判断的,判断用户是否产生搜索的前后文,从而找到合理的搜索结果。7.repinding:是一种通过比较匹配词和不匹配词的关键词在词库中的位置来进行检索的方法。
二、根据检索规则进行信息检索策略8.逻辑回归:可以对给定的文档集合进行用这个集合内的所有文档来进行建模预测,得到更精确的权重。9.线性代数:可以根据有效词条词的相似性建模,利用实验数据进行推断。10.svd:densityfunction的变种,在做降维之前,先要把量级做分解,分解之后得到的density可以用来做densityfunction的推断。
11.表征学习:基于传统的word2vec得到更高的概率模型,来推断出词向量和词符。12.bn:利用不同的标签来选择不同的label,减少方差。13.pki:词向量的pca。14.引导提示:根据一些有特殊使用要求的词汇,告诉用户在哪些位置有它。
三、隐语义检索方法15.copy+replace:基于词的相似度匹配,
0)相似度较高;replace就是其后续文章和原文章相似度较高。
四、规则结合排序方法16.分词,主流方法包括word2vec加中文分词模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
1)词频分析(即词量主要维度的文档频次)
2)相似性度量(主要包括:词汇词向量)
3)向量表示(主要有词向量、词向量xfilter、词向量x+lda、lda-tf、相似矩阵等)
4)词嵌入17.强化学习中的prediction_gradient方法18.针对每个候选词,利用词嵌入,利用特征向量,