搜索引擎如何抓取网页(搜索引擎重组搜索引擎对页面分析完成的正文信息的分析流程)

优采云 发布时间: 2021-10-30 09:16

  搜索引擎如何抓取网页(搜索引擎重组搜索引擎对页面分析完成的正文信息的分析流程)

  在页面收录的过程中,搜索引擎已经抓取并存储了网站上的URL。接下来,搜索引擎会对抓取到的页面内容进行分析,如图1所示。

  

  图一:页面分析流程

  在这个过程中,我们看到了两个“网页”:

  搜索引擎对页面的分析正式从原创页面开始。 1) 提取正文信息 这里提取的正文信息不仅包括页面的内容,还包括页面的页眉标签信息(Title、Keywords、Description)等。 2) 分词后/分词完成并提取信息后,搜索引擎根据机械分词和统计分词将文本信息分成若干个关键词。这些 关键词 形成 关键词 列表。

  我们在搜索引擎中搜索内容时,经常会输入关键词来查找。这里搜索引擎的工作就是将内容按照一定的规则划分成词,方便大家以后搜索。 3) 在上一步中,搜索引擎已经将正文内容分成了若干个关键词。这些关键词的位置和频率各不相同。在这一步,搜索引擎会一一记录、分类和索引关键词,比如关键词的出现频率。

  一般来说,关键词频率推荐2%~8%比较合理。

  4) 关键词重新组织搜索引擎索引页面关键词,然后将这些关键词重新组合成一个新的关键词形式的本页的关键词是唯一的,不再重复。

  比如第三步,A关键词出现了3次。第四步,我们只记录了一次A关键词。重新整理网页后,A 关键词 不再重复。

  至此,搜索引擎已经完成了对页面的分析。在此链接中,搜索引擎完成了页面正文信息的提取、关键词的切分、关键词的索引以及搜索引擎视角的S网页重组。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线