搜索引擎如何抓取网页(众所周知信息爆发式增长，如何有效的获取并利用这些信息)

优采云发布时间: 2021-11-13 22:16

　　众所周知，搜索引擎的主要工作流程包括：抓取、存储、页面分析、索引、检索等主要流程。

　　随着互联网信息的爆炸式增长，如何有效地获取和使用这些信息是搜索引擎工作的首要环节。数据采集系统作为整个搜索系统的上游，主要负责互联网信息的采集、保存和更新。它像蜘蛛一样在网络中爬行，所以通常被称为“蜘蛛”。比如我们常用的几种常见的搜索引擎蜘蛛，叫做Baiduspdier、Googlebot、搜狗网蜘蛛等。

　　下图为蜘蛛爬取系统的基本框架，包括链接存储系统、链接选择系统、dns分析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统. 蜘蛛就是通过这个系统的配合来完成对网页的抓取。

　　Spider的主要爬取策略类型上图看似简单，但实际上，爬虫在爬取过程中面临着一个超级复杂的网络环境，目的是为了让系统尽可能多地抓取有价值的资源，维护系统和现实。环境中页面的一致性同时不会给网站的体验带来压力，并且会设计各种复杂的爬取策略。以下是简要介绍：

　　1、抓取友好

　　互联网资源的海量要求抓取系统尽可能高效地使用带宽，在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这就产生了另一个问题。捕获的网站消耗的带宽造成访问压力。如果级别过大，会直接影响捕获到的网站的正常用户访问行为。因此，在爬取过程中，必须控制一定的爬取压力，以达到不影响网站的正常用户访问，尽可能多的抓取有价值资源的目的。一般情况下，最基本的就是基于ip的压力控制。这是因为如果它是基于域名的，可能存在一个域名对应多个ip（很多大网站）或多个域对应同一个ip（小网站共享ip）的问题。在实际中，压力部署控制往往是根据ip和域名的各种情况进行的。同时，站长平台也推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时，百度蜘蛛会根据站长的要求，优先进行抓取压力控制。站长平台还推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时，百度蜘蛛会根据站长的要求，优先进行抓取压力控制。站长平台也推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时，百度蜘蛛会根据站长的要求，优先进行抓取压力控制。

　　同一个站点的爬取速度控制一般分为两类：

　　一、一段时间内的爬取频率；

　　二是一段时间内的爬行流量。同一个站点的爬取速度在不同的时间会有所不同。例如，在夜晚安静、月亮暗、风大的时候，爬行速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问的高峰期，不断调整。对于不同的站点，也需要不同的爬取速度。

　　2、识别多个URL重定向

　　由于各种原因，Internet 上的某些网页具有 URL 重定向状态。为了正常抓取这部分资源，需要蜘蛛识别和判断URL重定向，防止作弊。重定向可以分为三类：http 30x 重定向、元刷新重定向和js 重定向。此外，百度还支持Canonical标签，可以看作是一种间接重定向的效果。

　　3、获取优先级分配

0

2021-11-13

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(众所周知信息爆发式增长，如何有效的获取并利用这些信息)

0 个评论

发起人