搜索引擎如何抓取网页( 一份蜘蛛爬抓高端网站建设过程中的系统系统原则)
优采云 发布时间: 2021-10-22 02:17搜索引擎如何抓取网页(
一份蜘蛛爬抓高端网站建设过程中的系统系统原则)
搜索引擎优化SEO框架思维-爬行系统概述-高端网站构建优化指南
上次给大家讲了企业品牌网站的搜索引擎优化:爬虫系统的基本框架和网络协议,以及爬虫的基本流程,今天就从官方解读一份蜘蛛爬行原理,很多时候我们可以用同理心来推测搜索引擎背后运行算法的逻辑,但是作为一个SEO从业者,单靠同理心是不足以支撑我们自己的逻辑框架体系的。讲解蜘蛛爬行高端网站构建流程的系统原理。
蜘蛛爬行原理的主要类型如下:
1、爬取行为对网站的友好性降低了服务器压力
2、常见爬取返回码建议
3、重定向识别多个网站链接
4、抓取优先级的分配
5、过滤重复网站链接
6、获取暗网信息资源
7、反作弊爬取判断
8、提高爬取效率和带宽利用效率
1、降低搜索引擎爬取行为对高端网站服务器建设的压力
Web信息资源极其复杂,这就要求搜索引擎蜘蛛抓取系统需要尽可能高效地利用带宽,在有限的硬件和带宽资源下,抓取尽可能多的对用户要求高、有价值的信息资源。
这就产生了另一个问题。搜索引擎蜘蛛爬取的高端品牌网站构建服务器带宽,造成访问压力。如果这种爬取行为的请求量过大,会直接影响网站正常的用户访问行为。
因此,在爬取过程中,必须进行一定的爬取压力控制,以达到不影响网站的正常用户访问,爬取尽可能多的有价值资源的目的。
同一个站点的爬取速度控制一般分为两类:
一是一段时间内的爬取频率;
另一种是在一段时间内抓取流量。
同一个站点的爬取速度在不同的时间会有所不同。例如,当深夜正常用户访问量较低时,抓取速度会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问高峰,不断调整。
对于不同的站点类型,也需要不同的爬取速度。
2、常见爬取返回码建议
简单介绍几种搜索引擎支持的返回码:
404会使搜索引擎认为高端品牌网站建设服务器下的网页无效,通常会从收录库中删除。同时,如果搜索引擎蜘蛛在短期内再次发现这个网站 链接将不会爬取;
503是由于服务器问题,网页暂时无法访问。通常,网站 暂时关闭,带宽有限。可能会出现这种情况。搜索引擎不会直接删除这个网站链接,会在短时间内多次访问。如果网页已经恢复,则可以正常抓取;如果它继续返回503,那么这个网站链接仍然会被认为是一个断开的链接并从库中删除。
403代表“Forbidden”,认为该网页当前被禁止。如果是高端品牌网站的建设服务器下新建的网站链接,搜索引擎蜘蛛暂时不会爬行,短期内会多次访问;如果已经是收录网站链接不会直接删除,短时间内会被多次访问。如果网页访问正常,就会正常抓取;如果仍然禁止访问,那么这个 网站 链接也将被视为无效链接,并将从库中删除。
301 表示永久重定向。一般SEO从业者在遇到网站迁移、域名更换、网站改版时都会使用301返回码。同时,他们还需要在站长平台网站改版工具中注册改版保护。为了减少改版造成的网站流量损失。
3、识别多个网站链接重定向
Web 上的某些网页由于各种原因具有链接重定向状态。为了正常抓取这部分资源,需要搜索引擎蜘蛛对链接重定向进行识别和判断。同时防止作弊。