搜索引擎优化 pdf(倒排索引常用专用术语汇总,你知道吗?(组图))

优采云 发布时间: 2022-01-21 19:09

  搜索引擎优化 pdf(倒排索引常用专用术语汇总,你知道吗?(组图))

  搜索引擎在我们的日常生活中非常普遍,并在各个领域发挥着独特的作用。那么今天我们就从文中了解这些关于搜索引擎索引的概念。

  

  索引实际上在日常生活中很常见。比如书的目录就是一个索引结构,目的是让人们更快的找到相关的章节。又如:类似hao123这种类型的导航网站本质上是互联网页面中的索引结构,目的类似,也是为了让用户尽快找到有价值的分类网站。

  在计算机科学领域,索引也是非常常用的数据结构,其根本目的是在特定应用中加快搜索速度。例如,在数据库中,在许多高效的数据结构中,索引被广泛用于提高系统效率。

  特别是对于搜索引擎来说,索引是最重要的核心技术之一。面对海量网页内容,如何快速找到所有收录用户查询词的网页?倒排索引在这里起着关键作用。

  本文主要讲解倒排索引相关的技术。通过介绍简单的例子,介绍了一些与搜索引擎相关的基本概念。了解这些基本概念对于了解未来指数的工作机制非常重要。

  一、word-文档矩阵

  word-document矩阵是一个概念模型,表达了两者之间的包容关系。图 1 显示了它的含义。图1中每一列代表一个文档,每一行代表一个单词,打勾位置代表收录关系。

  

  图 1:Word 文档矩阵

  搜索引擎的索引实际上是实现word-document矩阵的特定数据结构。实现上述概念模型有不同的方法。例如:倒排索引、签名文件、后缀树等。

  但是各种实验数据表明倒排索引是实现词与文档映射关系的最佳方式,所以本文主要介绍倒排索引的技术细节。

  二、倒排索引的基本概念

  下面就倒排索引中常用的一些特殊术语给大家解释一下:

  从图2可以清楚地看出这些概念之间的关系:

  

  图2:倒排索引基本概念*敏*感*词*

  三、倒排索引的简单例子

  倒排索引在逻辑结构和基本思想上都非常简单。让我们通过具体的例子来解释一下,让大家对倒排索引有一个宏观和直接的感受。

  假设文档集合收录5个文档,每个文档的内容如下图所示: 在图3中,最左边一列是每个文档对应的文档编号。我们的任务是为这个文档集合建立一个倒排索引。

  

  图 3:文档集合

  中文和英文等不同的语言,词之间没有明确的区分,所以首先使用分词系统自动将文档划分成词序列,使每个文档转换成由以下组成的数据流词序列。

  为了方便系统的后续处理,需要为每个不同的词分配一个唯一的词号,并记录哪些文档收录这个词。经过处理,我们可以得到最简单的倒排索引(参考图 4) .

  在图4中,“单词ID”列记录了每个单词对应的编号,第二列是对应的单词,第三列是每个单词对应的倒排列表。例如:单词“Google”,其中单词编号为1,倒排列表为{1,2,3,4,5},表示文档集合中的每个文档都收录该单词。

  图 4 中的倒排索引之所以最简单,是因为这个索引系统只记录哪些文档收录某个词。事实上,索引系统可以记录的信息远不止这些。

  图 5 是一个比较复杂的倒排索引。与图4所示的基本索引系统相比,一个词对应的倒排表不仅记录了文档编号,还记录了词频信息,即该词在每个文档中的某个出现次数。之所以记录这个信息,是因为词频信息是在对搜索结果进行排序时计算查询与文档的相似度时非常重要的计算因素,所以记录在倒排列表中,方便在后续排序。.

  在图5所示的例子中,“创始人”这个词的词数为7,对应的倒排列表内容为(3;1),其中3表示文档号为3的文档中收录这个词,数字1表示词频信息,即该词在3号文件中只出现一次,与其他词对应的倒排表所代表的含义相同。

  

  图 4:最简单的倒排索引

  图 5:带有词频信息的倒排索引

  一个实用的倒排索引也可以记录更多的信息。图 6 所示的索引系统除了记录文档编号和词频信息外,还记录了两种额外的信息——即每个词对应的文档频率信息(图 6)。第 3 列)以及有关单词在文档中出现位置的信息。

  

  图 6:收录词频、文档频率和出现信息的倒排索引

  文档频率信息表示文档集合中有多少文档收录某个词。记录此信息的原因与词频信息相同。这些信息是搜索结果排名计算中非常重要的因素。

  一个词在文档中的位置信息不一定由索引系统记录。它可以收录在实际的索引系统中,也可以选择不收录此信息。原因是搜索系统不需要此信息。必要时,位置信息仅在支持短语查询时才有用。

  以单词“Las”为例:单词数为8,文档频率为2,表示整个文档集中有两个文档收录该单词,对应倒排列表为{(3;1; ),(5; 1;)},表示该词在文档 3 和文档 5 中都出现过,词频为 1,“Las”一词在两个文档中的出现位置为 4,即文档中的第四个字是“Lass”。

  图 6 所示的倒排索引已经是一个非常完整的索引系统。搜索引擎的实际索引结构基本相同。唯一的区别是采用哪种具体的数据结构来实现上述逻辑结构。

  使用此索引系统,搜索引擎可以轻松响应用户查询。例如,如果用户输入查询词“Facebook”,搜索系统会找到倒排索引,从中可以读出收录该词的文档,这些文档就是提供给用户的搜索结果。

  利用词频信息和文档频率信息,可以对这些候选搜索结果进行排序,计算文档与查询的相似度,并根据相似度得分从高到低对输出进行排序,这是部分搜索系统的内部流程。

  本文由 @kevin 原创 在每个人都是产品经理发布。未经许可禁止复制

  题图来自Unsplash,基于CCO协议

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线