建立关键词索引存储和页面之间的对应关系(图)
优采云 发布时间: 2021-05-04 03:26建立关键词索引存储和页面之间的对应关系(图)
页面爬网只是搜索引擎工作中的基本链接。爬网页面时,并不意味着搜索引擎需要立即向最终用户提供查询服务。由于用户使用搜索引擎查询单词或短语,因此到目前为止,搜索引擎只能提供整个原创页面,而不能返回与用户查询条件匹配的信息。因此,搜索引擎还需要对原创页面进行一系列分析和处理,以满足用户的信息查询习惯。
首先,搜索引擎对存储的原创页面进行索引,然后过滤原创网页的标签信息,并从网页中提取文本信息。然后裁剪文本信息,建立关键词索引,并获得页面和关键词之间的对应关系。最后,所有关键字都进行了重组和构建。垂直键和页面之间的对应关系。
1.网络索引?
为了提高页面检索效率,搜索引擎需要对捕获的原创页面进行索引。由于URL是页面的入口地址,因此原创页面的索引实际上是索引页面的URL,因此可以根据URL快速定位相应的页面。
2.页面分析?
网页分析是整个网页处理过程中最重要的部分,包括网页文本信息的提取(即标记信息的过滤),分词,建立关键词索引束缚和关键词 ]重组。因此,形成与多个原创页面相对应的关键字,即形成与用户的查询习惯一致的信息原型。
文本信息提取?
网页信息?此提取实际上是对网页中非文本信息的过滤。最重要的方法之一是过滤网页中的标签信息。经过标签过滤后,搜索引擎可以搜索网页的文本信息。
进行分词/分词后,从原创页面提取文本信息后,搜索引擎可以获得页面的实质内容。为了获得与用户相关的数据,搜索引擎还需要删除页面上的内容以形成与用户查询条件相匹配的信息。
每个搜索引擎的细分系统或多或少都不同。分词系统的质量主要是