网站对搜索引擎优化包括哪些内容(搜索引擎对蜘蛛抓取回来的页面进行处理主要有4个步骤)

优采云 发布时间: 2022-03-19 11:00

  网站对搜索引擎优化包括哪些内容(搜索引擎对蜘蛛抓取回来的页面进行处理主要有4个步骤)

  搜索引擎抓取内容后,会收录到数据库。当用户搜索时,搜索引擎会将收录的内容呈现给用户。为了将内容快速呈现给用户,搜索引擎需要对已经抓取的内容进行处理,只留下关键信息,以便在用户发起检索时快速呈现想要的内容。

  

  那么搜索引擎处理蜘蛛检索到的页面主要有四个步骤。

  首先:确定页面的页面类型

  判断页面是普通网页还是PDF等特殊文件。普通网页会区分是论坛,普通文章,还是视频等,以便后期更快的呈现给用户

  二:从网页中提取文本信息

  站长都知道搜索引擎无法识别JavaScript、Flash、图片、视频等内容。尽管他们一直在努力识别这些信息,但他们仍然依赖于从网页中提取 TDK 进行识别。虽然关键词标签已经被主流搜索引擎所抛弃,但还是会有一些参考的。

  

  第三:去除页面噪音

  前面有两三篇文章文章,提到了页面信噪比的问题。信噪比是页面的主题内容与干扰信息的比值。搜索引擎将删除与页面无关的广告、导航和链接。等信息提取网页的主要内容。相关搜索在一定程度上也会被算作本页的内容,所以更好地利用思想搜索不仅可以提高页面质量,还可以增加与用户搜索的匹配度。

  

  第四:从页面内容中去除停用词

  去除页面停用词实际上是搜索引擎的一个分词过程。今天主要讲的是停用词,即页面中的“de”、“ah”等词,以减少搜索引擎的计算量。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线