搜索引擎如何抓取网页(主从式Master服务器维护待URL队列的基本结构)

优采云发布时间: 2022-04-03 05:19

　　对于主从类型，有一个专门的主服务器来维护要爬取的URL队列，负责每次将URL分发给不同的从服务器，从服务器负责实际的网页下载工作。Master服务器除了维护要爬取的URL队列和分发URL外，还负责调解每个Slave服务器的负载。为了避免一些从服务器过于空闲或过度工作。

　　在这种模式下，Master往往会成为系统的瓶颈。

　　2.点对点

　　等价的基本结构如图所示：

　　在这种模式下，所有爬虫服务器之间的分工没有区别。每个爬取服务器可以从待爬取的URL队列中获取URL，然后计算该URL主域名的哈希值H，进而计算H mod m（其中m为服务器数量，取上图例如，m 对于 3），计算出来的数字就是处理 URL 的主机号。

　　例子：假设对于URL，计算器hash值H=8，m=3，那么H mod m=2，那么编号为2的服务器会获取链接。假设此时服务器 0 获取了 URL，它会将 URL 传输到服务器 2，服务器 2 将获取它。

　　这种模式有一个问题，当一个服务器死掉或添加一个新服务器时，所有 URL 的哈希余数的结果都会改变。也就是说，这种方法不能很好地扩展。针对这种情况，提出了另一种改进方案。这种改进的方案是一致的散列以确定服务器划分。其基本结构如图所示：

　　一致散列对 URL 的主域名进行散列，并将其映射到 0-232 范围内的数字。这个范围平均分配给m台服务器，根据URL的主域名的hash运算值的范围来确定要爬取的服务器。

　　如果某台服务器出现问题，本应负责该服务器的网页将由下一个服务器顺时针获取。在这种情况下，即使一台服务器出现问题，也不会影响其他工作。

0

2022-04-03

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册