搜索引擎如何抓取网页( 一份蜘蛛爬抓高端网站建设过程中的系统系统原则)

优采云发布时间: 2021-10-22 02:17

　　搜索引擎如何抓取网页(

一份蜘蛛爬抓高端网站建设过程中的系统系统原则)

　　搜索引擎优化SEO框架思维-爬行系统概述-高端网站构建优化指南

　　上次给大家讲了企业品牌网站的搜索引擎优化：爬虫系统的基本框架和网络协议，以及爬虫的基本流程，今天就从官方解读一份蜘蛛爬行原理，很多时候我们可以用同理心来推测搜索引擎背后运行算法的逻辑，但是作为一个SEO从业者，单靠同理心是不足以支撑我们自己的逻辑框架体系的。讲解蜘蛛爬行高端网站构建流程的系统原理。

　　蜘蛛爬行原理的主要类型如下：

　　1、爬取行为对网站的友好性降低了服务器压力

　　2、常见爬取返回码建议

　　3、重定向识别多个网站链接

　　4、抓取优先级的分配

　　5、过滤重复网站链接

　　6、获取暗网信息资源

　　7、反作弊爬取判断

　　8、提高爬取效率和带宽利用效率

　　1、降低搜索引擎爬取行为对高端网站服务器建设的压力

　　Web信息资源极其复杂，这就要求搜索引擎蜘蛛抓取系统需要尽可能高效地利用带宽，在有限的硬件和带宽资源下，抓取尽可能多的对用户要求高、有价值的信息资源。

　　这就产生了另一个问题。搜索引擎蜘蛛爬取的高端品牌网站构建服务器带宽，造成访问压力。如果这种爬取行为的请求量过大，会直接影响网站正常的用户访问行为。

　　因此，在爬取过程中，必须进行一定的爬取压力控制，以达到不影响网站的正常用户访问，爬取尽可能多的有价值资源的目的。

　　同一个站点的爬取速度控制一般分为两类：

　　一是一段时间内的爬取频率；

　　另一种是在一段时间内抓取流量。

　　同一个站点的爬取速度在不同的时间会有所不同。例如，当深夜正常用户访问量较低时，抓取速度会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问高峰，不断调整。

　　对于不同的站点类型，也需要不同的爬取速度。

　　2、常见爬取返回码建议

　　简单介绍几种搜索引擎支持的返回码：

　　404会使搜索引擎认为高端品牌网站建设服务器下的网页无效，通常会从收录库中删除。同时，如果搜索引擎蜘蛛在短期内再次发现这个网站链接将不会爬取；

　　503是由于服务器问题，网页暂时无法访问。通常，网站暂时关闭，带宽有限。可能会出现这种情况。搜索引擎不会直接删除这个网站链接，会在短时间内多次访问。如果网页已经恢复，则可以正常抓取；如果它继续返回503，那么这个网站链接仍然会被认为是一个断开的链接并从库中删除。

　　403代表“Forbidden”，认为该网页当前被禁止。如果是高端品牌网站的建设服务器下新建的网站链接，搜索引擎蜘蛛暂时不会爬行，短期内会多次访问；如果已经是收录网站链接不会直接删除，短时间内会被多次访问。如果网页访问正常，就会正常抓取；如果仍然禁止访问，那么这个网站链接也将被视为无效链接，并将从库中删除。

　　301 表示永久重定向。一般SEO从业者在遇到网站迁移、域名更换、网站改版时都会使用301返回码。同时，他们还需要在站长平台网站改版工具中注册改版保护。为了减少改版造成的网站流量损失。

　　3、识别多个网站链接重定向

　　Web 上的某些网页由于各种原因具有链接重定向状态。为了正常抓取这部分资源，需要搜索引擎蜘蛛对链接重定向进行识别和判断。同时防止作弊。

0

2021-10-22

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页( 一份蜘蛛爬抓高端网站建设过程中的系统系统原则)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页( 一份蜘蛛爬抓高端网站建设过程中的系统系统原则)

0 个评论

发起人

相关问题