搜索引擎主题模型优化(正向索引结构简化*敏*感*词*如下图:不分词没有什么区别)

优采云 发布时间: 2021-12-23 21:24

  搜索引擎主题模型优化(正向索引结构简化*敏*感*词*如下图:不分词没有什么区别)

  1搜索引擎索引

  索引是关键词与网页文件的对应关系。所以有两种索引:正向索引和倒排索引。用户进行查询时,如果对用户提交的本地文件进行全扫描关键词,“查询”的工作量太大,同时也消耗服务器资源,所以搜索引擎会处理过去的网页首先被索引并放入数据库,等待网友的搜索查询请求。网页经过搜索引擎处理后,只剩下能够反映网页主要内容的文字,此时网页就可以被索引了。

  1.1 远期索引

  前向索引以文件ID为key,以从文件中提取的关键词(或关键词的ID)的集合作为值。前向索引的结构:“Document 1”的ID> Word 1:出现次数,出现位置列表;词2:出现次数,出现位置列表;······ 前向索引结构的简化*敏*感*词*如下:

  

  这种方法和非分段方法没有区别。它还需要遍历所有文件。唯一的区别是关键词集是分词后遍历的,不分词遍历整个文件。如果用户输入一个长尾词,通过这个索引计算文件内容的相关性会非常耗费资源。

  注:长尾词:指网站上的非目标关键词,但与目标关键词相关的组合关键词也能带来搜索流量。一般来说,构成关键词的要素基本上是以下三类,品牌关键词、行业与场所关键词、一般关键词。比如目标关键词是服装,它的长尾关键词可以是男装、冬装、户*敏*感*词*广。

  1.2倒排索引

  为了使索引文件可以直接用于排名,搜索引擎会将上述对应关系转化为倒排索引,即关键词对应文件的形式。倒排索引的结构:“关键词1">文件1的ID:出现次数,位置列表;文件 2:出现次数、位置列表;.... 倒排索引结构的简化*敏*感*词*如下:

  

  这样的索引结构可以直接应用于搜索排名。比如用户搜索关键词1,那么搜索引擎只会计算收录关键词1的文件的相关性和权重;用户搜索“关键词1+关键词2”组合词,搜索引擎会调出收录关键词1和关键词2的文件进行相关性和权重计算。这大大加快了排名的呈现速度。

  倒排索引不仅记录了对应关键词文件的ID,还记录了关键词出现的频率,关键词对应的每个文档的出现频率,以及关键词出现的次数@> 在文件中的位置等信息。在排名过程中,这些信息会被单独加权并应用于最终的排名结果。

  在搜索引擎优化(Search Engine Optimization,SEO)操作中,关键词的出现频率会相应增加,尽量让核心关键词出现在页面顶部,并使用关键词 H-tags、变色加粗等强调识别的操作方式会被倒排索引记录,参与关键词相关性和搜索排名的计算。

  倒排索引已经在Lucene和Solor中应用。为了优化关键词的查询速度,可以使用B树、红黑树等优化算法。

  参考文章:

  [1]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线