搜索引擎主题模型优化(正向索引结构简化*敏*感*词*如下图:不分词没有什么区别)
优采云 发布时间: 2021-12-23 21:24搜索引擎主题模型优化(正向索引结构简化*敏*感*词*如下图:不分词没有什么区别)
1搜索引擎索引
索引是关键词与网页文件的对应关系。所以有两种索引:正向索引和倒排索引。用户进行查询时,如果对用户提交的本地文件进行全扫描关键词,“查询”的工作量太大,同时也消耗服务器资源,所以搜索引擎会处理过去的网页首先被索引并放入数据库,等待网友的搜索查询请求。网页经过搜索引擎处理后,只剩下能够反映网页主要内容的文字,此时网页就可以被索引了。
1.1 远期索引
前向索引以文件ID为key,以从文件中提取的关键词(或关键词的ID)的集合作为值。前向索引的结构:“Document 1”的ID> Word 1:出现次数,出现位置列表;词2:出现次数,出现位置列表;······ 前向索引结构的简化*敏*感*词*如下:
这种方法和非分段方法没有区别。它还需要遍历所有文件。唯一的区别是关键词集是分词后遍历的,不分词遍历整个文件。如果用户输入一个长尾词,通过这个索引计算文件内容的相关性会非常耗费资源。
注:长尾词:指网站上的非目标关键词,但与目标关键词相关的组合关键词也能带来搜索流量。一般来说,构成关键词的要素基本上是以下三类,品牌关键词、行业与场所关键词、一般关键词。比如目标关键词是服装,它的长尾关键词可以是男装、冬装、户*敏*感*词*广。
1.2倒排索引
为了使索引文件可以直接用于排名,搜索引擎会将上述对应关系转化为倒排索引,即关键词对应文件的形式。倒排索引的结构:“关键词1">文件1的ID:出现次数,位置列表;文件 2:出现次数、位置列表;.... 倒排索引结构的简化*敏*感*词*如下:
这样的索引结构可以直接应用于搜索排名。比如用户搜索关键词1,那么搜索引擎只会计算收录关键词1的文件的相关性和权重;用户搜索“关键词1+关键词2”组合词,搜索引擎会调出收录关键词1和关键词2的文件进行相关性和权重计算。这大大加快了排名的呈现速度。
倒排索引不仅记录了对应关键词文件的ID,还记录了关键词出现的频率,关键词对应的每个文档的出现频率,以及关键词出现的次数@> 在文件中的位置等信息。在排名过程中,这些信息会被单独加权并应用于最终的排名结果。
在搜索引擎优化(Search Engine Optimization,SEO)操作中,关键词的出现频率会相应增加,尽量让核心关键词出现在页面顶部,并使用关键词 H-tags、变色加粗等强调识别的操作方式会被倒排索引记录,参与关键词相关性和搜索排名的计算。
倒排索引已经在Lucene和Solor中应用。为了优化关键词的查询速度,可以使用B树、红黑树等优化算法。
参考文章:
[1]