搜索引擎优化原理( 搜索引擎对蜘蛛抓取回来的页面进行处理主要有4个步骤)
优采云 发布时间: 2021-12-05 20:17搜索引擎优化原理(
搜索引擎对蜘蛛抓取回来的页面进行处理主要有4个步骤)
搜索引擎优化:搜索引擎原理,搜索引擎对内容的处理
搜索引擎抓取到内容后,会在数据库中出现收录。当用户搜索时,搜索引擎会将收录的内容呈现给用户。为了将内容快速呈现给用户,搜索引擎需要对获取的内容进行处理,只留下关键信息,以便在用户发起搜索时快速呈现需要的内容。
然后搜索引擎处理蜘蛛检索到的页面有四个主要步骤。
第一:确定页面的页面类型
判断页面是普通的普通网页还是PDF等特殊文件。普通网页会区分论坛、普通文章或视频等内容,以便日后更快的呈现给用户
二:提取网页的文字信息
站长都知道搜索引擎无法识别JavaScript、Flash、图片、视频等,虽然他们一直在努力识别这些信息,但他们仍然依靠提取网页TDK进行识别,尽管关键字标签已被主流搜索抛弃引擎。,但还是会有一些参考的参考。
第三:去除页面噪音
文章前面有两三篇文章,提到了页面信噪比的问题。信噪比是页面的主题内容与干扰信息的比值。搜索引擎会去除各种与页面无关的广告、导航、链接等。信息,提取网页的主要内容。相关搜索也会在一定程度上算作该页面的内容,所以更好地利用搜索不仅可以提高页面的质量,还可以增加与用户搜索的匹配度。
第四:去除页面内容中的停用词
去除页面停用词实际上是一个搜索引擎分词过程。今天我们主要讲停用词,即页面上的“的”、“啊”等词,以减少搜索引擎的计算量。