百度搜索引擎优化原理(搜索引擎建立倒排索引的重要过程——入库写库)
优采云 发布时间: 2021-09-21 22:22百度搜索引擎优化原理(搜索引擎建立倒排索引的重要过程——入库写库)
众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等。在前一章中,我们主要介绍了一些爬行存储链接的内容。本章简要介绍了指标体系
在以1亿为单位的网页库中搜索某些关键词信息就像在大海中寻找一根针。也许搜索可以在一定时间内完成,但用户不能等待。从用户体验的角度来看,我们必须在毫秒级给用户满意的结果,否则用户只能输。我们如何满足这一要求
如果您知道关键词(在查询中分词后)用户找到的页面出现在哪些页面中,那么用户检索的处理过程可以想象为在查询中分词后收录不同部分的页面集相交的过程,而检索则成为页面名称之间的比较和相交。通过这种方式,可以在几亿毫秒内检索。这是反向索引和交集检索的过程。以下是建立反向指数的基本过程:
一,。页面分析的过程实际上是识别和标记原创页面的不同部分,例如标题、关键字、内容、链接、锚定、评论、其他不重要的区域等
二,。分词的过程实际上包括分词、同义词转换、同义词替换等。以页面标题分割为例,数据将是:术语文本、术语ID、词性、词性等
三,。在前面的准备工作完成之后,下一步是建立反向索引以形成{termádoc}。下图为指标体系中的倒排指标流程
倒排索引是搜索引擎实现毫秒级检索的重要环节。接下来,我们将介绍在索引系统中建立反向索引的重要过程—存储和写入数据库