搜索引擎如何抓取网页(众所周知信息爆发式增长,如何有效的获取并利用这些信息)

优采云 发布时间: 2021-11-13 22:16

  搜索引擎如何抓取网页(众所周知信息爆发式增长,如何有效的获取并利用这些信息)

  众所周知,搜索引擎的主要工作流程包括:抓取、存储、页面分析、索引、检索等主要流程。

  随着互联网信息的爆炸式增长,如何有效地获取和使用这些信息是搜索引擎工作的首要环节。数据采集​​系统作为整个搜索系统的上游,主要负责互联网信息的采集、保存和更新。它像蜘蛛一样在网络中爬行,所以通常被称为“蜘蛛”。比如我们常用的几种常见的搜索引擎蜘蛛,叫做Baiduspdier、Googlebot、搜狗网蜘蛛等。

  下图为蜘蛛爬取系统的基本框架,包括链接存储系统、链接选择系统、dns分析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统. 蜘蛛就是通过这个系统的配合来完成对网页的抓取。

  Spider的主要爬取策略类型 上图看似简单,但实际上,爬虫在爬取过程中面临着一个超级复杂的网络环境,目的是为了让系统尽可能多地抓取有价值的资源,维护系统和现实。环境中页面的一致性同时不会给网站的体验带来压力,并且会设计各种复杂的爬取策略。以下是简要介绍:

  1、 抓取友好

  互联网资源的海量要求抓取系统尽可能高效地使用带宽,在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这就产生了另一个问题。捕获的网站消耗的带宽造成访问压力。如果级别过大,会直接影响捕获到的网站的正常用户访问行为。因此,在爬取过程中,必须控制一定的爬取压力,以达到不影响网站的正常用户访问,尽可能多的抓取有价值资源的目的。一般情况下,最基本的就是基于ip的压力控制。这是因为如果它是基于域名的,可能存在一个域名对应多个ip(很多大网站)或多个域对应同一个ip(小网站共享ip)的问题。在实际中,压力部署控制往往是根据ip和域名的各种情况进行的。同时,站长平台也推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时,百度蜘蛛会根据站长的要求,优先进行抓取压力控制。站长平台还推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时,百度蜘蛛会根据站长的要求,优先进行抓取压力控制。站长平台也推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时,百度蜘蛛会根据站长的要求,优先进行抓取压力控制。

  同一个站点的爬取速度控制一般分为两类:

  一、一段时间内的爬取频率;

  二是一段时间内的爬行流量。同一个站点的爬取速度在不同的时间会有所不同。例如,在夜晚安静、月亮暗、风大的时候,爬行速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问的高峰期,不断调整。对于不同的站点,也需要不同的爬取速度。

  2、识别多个URL重定向

  由于各种原因,Internet 上的某些网页具有 URL 重定向状态。为了正常抓取这部分资源,需要蜘蛛识别和判断URL重定向,防止作弊。重定向可以分为三类:http 30x 重定向、元刷新重定向和js 重定向。此外,百度还支持Canonical标签,可以看作是一种间接重定向的效果。

  3、获取优先级分配

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线