搜索引擎如何抓取网页(搜索引擎优先更新大部分用户所需要内容的原则(图))

优采云 发布时间: 2022-02-03 07:29

  搜索引擎如何抓取网页(搜索引擎优先更新大部分用户所需要内容的原则(图))

  搜索引擎蜘蛛在本地抓取网页,网页被分析索引并参与排名,并不意味着蜘蛛对该网页的工作已经结束。如今,互联网网页的内容大多是动态的,有时网页甚至会被管理员删除。搜索引擎爬取的本地页面可以看作是已经爬取并被索引的网页的镜像,也就是说,理论上搜索引擎应该保证本地“镜像”页面和对应的网页在互联网内容是实时一致的。但是,由于搜索引擎蜘蛛资源有限,现阶段不可能也没有必要实时监控所有被索引的网页的所有变化。搜索引擎只需要设置一个策略让蜘蛛再次抓取和更新页面,保证当一些页面呈现给用户时,搜索引擎的本地索引与当时的内容相差不大。有些页面应该收录大部分网民需要检索的内容,也能满足绝大多数搜索用户的搜索请求。

  如前所述,在资源有限的情况下,搜索引擎首先要保证部分网页的索引是更新的,这部分网页有大部分用户需要的内容;它还应该确保所有索引页面都有更新机制。当一个网页需要相应的新内容索引时,Spider需要再次爬取并更新网页索引。从Spider的角度来看,被索引网页的重爬频率一般是根据以下几个方面来确定的:用户体验、历史更新频率、网页类型、网页权重。

  1、用户体验

  整个互联网的网页数量庞大,被百度爬取和索引的中文网页应该在上千亿,但楚用户想要的信息只是一小部分。用户向搜索引擎提交查询后,无论返回多少结果,大部分用户会在前三页找到自己需要的信息,很少有用户会浏览第四页或后面的搜索结果。有一个优先更新大多数用户需要的内容的原则。用户提交查询结果的所有先前页面都值得确保索引是最新的。所以一般的搜索引擎会采集所有用户的搜索请求,然后统计所有搜索结果中用户可能访问的W个页面,然后优先抓取再更新。

  2、历史更新频率

  搜索引擎会尝试查找某个网页中内容的更新频率,因为Spider的重爬是为了找出被索引的网页是否发生了变化。如果网页继续保持不变,搜索引擎可能会降低其抓取速度。频率,它甚至不再被重新抓取。这个策略的执行是基于搜索引擎找到的网页的更新频率,所以理论上,当Spider找到一个新的URL进行爬取和索引时,它会很快的进行第二次爬取。如果没有发现内容变化,则降低爬取的频率,逐步发现新的网页频率,以调整到最佳的爬取频率。同时,Spider注解的变化应该是网页的主要内容部分,

  3、页面类型

  不同的页面类型有不同的更新频率。网站 主页、目录页、特殊页和文章 页面在同一站点内的更新频率肯定是不同的。所以对于同一个站点的N个页面,Spider会以不同的频率爬取不同类型的网页。首页和目录页是Spider经常访问的页面;根据专题页面的时效性或其他特性,Spider可能会在一定时间内频繁爬取,时效期满后会降低爬取频率。;对于 文章 页面,Spider 很可能在第一次访问后就不会回来了。虽然整个互联网的网页很多,但网页的种类并不多。每种类型的网页都会有自己的布局和更新规则。搜索引擎有足够的能力发现网页的类型并设置合理的重新抓取频率。网页类型分类和网页更新频率是使用最全面的。一般来说,站点中相似的网页会有相同的更新频率,这也便于Spider对网页的新频率进行判断。

  4、网页权重

  除了上述的重新爬取策略外,页面权重也是决定爬取频率的重要因素。用户体验策略也在一定程度上体现了网页权重的影响。如果网页的类型相同,历史更新的频率也相近,那么权重高的页面一定会被更频繁地爬取。比如百度首页、hao123首页、chinaz站长工具首页和普通企业网站首页可以简单归类为网站首页,前三个“首页”长期不更新,普通企业网站主页可能会有不定期的更新,但是前三个“主页”的百度快照一般都是最新的,而普通企业网站的首页快照可能是一周甚至一个月前。这反映了页面权重在爬取频率中的作用。

  在搜索引擎Spicier的实际操作中,它不会单独使用某种重爬策略,而是会综合参考网页的用户体验、更新频率、页面类型和页面权重。而对于不同类型的页面,侧重参考的更新内容主体也不同。例如,如果列表页面只有一个新的文章条目,则可能会更新:文章页面的主要内容没有改变,所有推荐的链接、广告和内容围绕主要内容发生了变化,可能不是更新。

  在SEO工作中,为了增加某个网站的爬取频率,我们一般着重增加页面的入链权重,力求提高页面的更新频率。事实上,在用户体验和页面类型方面也有工作要做。使用标题和描述来吸引点击,不仅可以提高排名,还可以间接增加页面被Spider抓取的频率:同时针对不同的定位关键词可以使用不同的页面类型(列表页面、特征页面,内容页面等),在设计页面内容和网站架构时要仔细考虑,在页面类型部分有很多工作。例如,许多网站 已经将整个站点做成了一个列表页面。整个网站没有普通的内容页面。在内容页的主要内容下方或周维中,也有大量与主题相关的文字内容。列表形式。但是这种方法长期使用效果不佳,或者在损害用户体验后会降低被爬取的频率。无论如何,好的网站架构设计应该利用Spider爬取策略的各种特性。

  上面的讨论是关于Spider的正常爬取策略。保存爬取并不意味着一定有更新。只有当页面内容的变化值得搜索引擎更新索引时才会更新。比如上面提到的文章页面的主要内容是一样的,但是推荐的链接都变了。一般来说,搜索引擎不会将资源浪费在无意义的更新上。当Spider发现被索引的页面突然被删除,即服务器突然返回404状态码时,也会在短时间内增加对该页面的爬取频率。一些SEO人员利用这个增加Spider对自己网站的爬取,做一些其他的“手脚”,但这是走钢丝的聪明行为,

  另外,很多门户网站网站习惯于为实时新闻发布一个标题,然后要求编辑补充内容,甚至修改标题。但此类网页一般为文章页面,从用户体验、更新频率、网页类型、网站权重等方面都不会获得较高的爬取频率。这些 网站 不断抱怨百度不更新新闻页面。百度搜索官方表示希望以后通过百度站长平台解决这个问题,但作为SEO人员,不能指望搜索引擎官方做出什么动作。仔细研究一下蜘蛛的爬取和更新策略,虽然可能没有那么完美的解决问题,但是一般都能找到更适合你的方法。

  本文来自网络整理,标题:搜索引擎蜘蛛再次爬取更新策略,网址:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线