搜索引擎如何抓取网页( 一份蜘蛛爬抓高端网站建设过程中的系统系统原则)

优采云 发布时间: 2021-10-22 02:17

  搜索引擎如何抓取网页(

一份蜘蛛爬抓高端网站建设过程中的系统系统原则)

  搜索引擎优化SEO框架思维-爬行系统概述-高端网站构建优化指南

  上次给大家讲了企业品牌网站的搜索引擎优化:爬虫系统的基本框架和网络协议,以及爬虫的基本流程,今天就从官方解读一份蜘蛛爬行原理,很多时候我们可以用同理心来推测搜索引擎背后运行算法的逻辑,但是作为一个SEO从业者,单靠同理心是不足以支撑我们自己的逻辑框架体系的。讲解蜘蛛爬行高端网站构建流程的系统原理。

  

  蜘蛛爬行原理的主要类型如下:

  1、爬取行为对网站的友好性降低了服务器压力

  2、常见爬取返回码建议

  3、重定向识别多个网站链接

  4、抓取优先级的分配

  5、过滤重复网站链接

  6、获取暗网信息资源

  7、反作弊爬取判断

  8、提高爬取效率和带宽利用效率

  

  1、降低搜索引擎爬取行为对高端网站服务器建设的压力

  Web信息资源极其复杂,这就要求搜索引擎蜘蛛抓取系统需要尽可能高效地利用带宽,在有限的硬件和带宽资源下,抓取尽可能多的对用户要求高、有价值的信息资源。

  这就产生了另一个问题。搜索引擎蜘蛛爬取的高端品牌网站构建服务器带宽,造成访问压力。如果这种爬取行为的请求量过大,会直接影响网站正常的用户访问行为。

  因此,在爬取过程中,必须进行一定的爬取压力控制,以达到不影响网站的正常用户访问,爬取尽可能多的有价值资源的目的。

  同一个站点的爬取速度控制一般分为两类:

  一是一段时间内的爬取频率;

  另一种是在一段时间内抓取流量。

  同一个站点的爬取速度在不同的时间会有所不同。例如,当深夜正常用户访问量较低时,抓取速度会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问高峰,不断调整。

  对于不同的站点类型,也需要不同的爬取速度。

  

  2、常见爬取返回码建议

  简单介绍几种搜索引擎支持的返回码:

  404会使搜索引擎认为高端品牌网站建设服务器下的网页无效,通常会从收录库中删除。同时,如果搜索引擎蜘蛛在短期内再次发现这个网站 链接将不会爬取;

  503是由于服务器问题,网页暂时无法访问。通常,网站 暂时关闭,带宽有限。可能会出现这种情况。搜索引擎不会直接删除这个网站链接,会在短时间内多次访问。如果网页已经恢复,则可以正常抓取;如果它继续返回503,那么这个网站链接仍然会被认为是一个断开的链接并从库中删除。

  403代表“Forbidden”,认为该网页当前被禁止。如果是高端品牌网站的建设服务器下新建的网站链接,搜索引擎蜘蛛暂时不会爬行,短期内会多次访问;如果已经是收录网站链接不会直接删除,短时间内会被多次访问。如果网页访问正常,就会正常抓取;如果仍然禁止访问,那么这个 网站 链接也将被视为无效链接,并将从库中删除。

  301 表示永久重定向。一般SEO从业者在遇到网站迁移、域名更换、网站改版时都会使用301返回码。同时,他们还需要在站长平台网站改版工具中注册改版保护。为了减少改版造成的网站流量损失。

  

  3、识别多个网站链接重定向

  Web 上的某些网页由于各种原因具有链接重定向状态。为了正常抓取这部分资源,需要搜索引擎蜘蛛对链接重定向进行识别和判断。同时防止作弊。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线