搜索引擎如何抓取网页(搜索引擎重组搜索引擎对页面分析完成的正文信息的分析流程)
优采云 发布时间: 2021-09-27 19:05搜索引擎如何抓取网页(搜索引擎重组搜索引擎对页面分析完成的正文信息的分析流程)
在页面收录的过程中,搜索引擎捕获并存储了网站上的URL。接下来,搜索引擎将分析捕获的页面内容,如图1所示
图1:页面分析过程
在这个过程中,我们看到两个“网页”:
搜索引擎对页面的分析从原创页面开始1)提取正文信息。此处提取的正文信息不仅包括页面内容,还包括提取信息后页面2)的标题标签信息(标题、关键字、描述),搜索引擎根据机械分词法和统计分词法将文本信息分成若干个关键词,形成关键词列表
当我们在搜索引擎中搜索内容时,我们通常会进入关键词搜索。搜索引擎在这里的工作是根据一定的规则将内容划分为单词,以便我们将来可以搜索3)在建立关键字索引的前一步中,搜索引擎将文本内容划分为多个关键词。这些关键词的位置和频率不同。在这一步中,搜索引擎将逐个记录、分类和索引关键词,例如关键词
一般而言关键词2%~8%的频率建议是合理的
4)关键词重新组织搜索引擎以索引页面关键词,然后重新组合这些关键词,以关键词>的形式形成新的网页。此网页上的关键词是唯一的,不会重复
例如,在第三步中,一个关键词出现三次。在第四步中,我们只记录一次a关键词。重新组织网页后关键词将不再重复
到目前为止,搜索引擎对该页面的分析已经完成。在这个链接中,搜索引擎从搜索引擎的角度完成了网页文本信息的提取关键词,关键词的切分,关键词的索引和网页重组