搜索引擎对蜘蛛回来的页面进行处理主要有4个步骤

优采云发布时间: 2021-06-21 21:12

　　搜索引擎抓取到内容后，收录会被发送到数据库中。用户搜索时，搜索引擎会将收录的内容呈现给用户。为了将内容快速呈现给用户，搜索引擎需要对接收到的内容进行处理，只留下关键信息，以便在用户发起搜索时快速呈现需要的内容。

　　搜索引擎处理蜘蛛检索到的页面有四个主要步骤。

　　首先：确定页面的页面类型

　　判断页面是普通的普通网页还是PDF等特殊文件。普通网页会区分论坛、普通文章或视频等内容，以便日后更快地呈现给用户

　　二：提取网页的文字信息

　　站长们都知道搜索引擎无法识别JavaScript、Flash、图片、视频等，虽然一直在努力识别这些信息，但仍然依靠提取网页TDK进行识别，虽然关键字标签已经被主流抛弃搜索引擎，但还是会有一些参考。

　　第三：去除页面噪音

　　文章前面有两三篇文章，提到了页面信噪比的问题。信噪比是页面主题内容与干扰信息的比值。搜索引擎会删除与页面无关的广告、导航、链接等。类信息，提取网页的主要内容。相关搜索也会在一定程度上算作该页面的内容，所以更好地利用搜索不仅可以提高页面质量，还可以增加与用户搜索的匹配度。

　　第四：去除页面内容中的停用词

　　去除页面停用词实际上是一个搜索引擎的分词过程。今天主要讲停用词，即页面上的“的”、“啊”等词，以减少搜索引擎的计算量。

0

2021-06-21

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册