搜索引擎如何抓取网页(网络蜘蛛即WebSpider的原因及处理技术的问题分析)
优采云 发布时间: 2021-10-13 23:33搜索引擎如何抓取网页(网络蜘蛛即WebSpider的原因及处理技术的问题分析)
网络蜘蛛,或者说网络蜘蛛,是一个非常形象的名字。把互联网比作蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址搜索网页。从某个页面(通常是首页)开始,阅读网页内容,找到网页中的其他链接地址,然后通过这些链接地址进行搜索。一个网页,这样一直循环下去,直到这个网站的所有网页都被抓取完。如果把整个互联网看作一个网站,那么网络蜘蛛就可以利用这个原理抓取互联网上的所有网页。
对于搜索引擎来说,爬取互联网上的所有网页几乎是不可能的。从目前公布的数据来看,容量最大的搜索引擎只能抓取整个网页的40%左右。造成这种情况的原因之一是爬虫技术的瓶颈,无法遍历所有网页,很多网页无法从其他网页的链接中找到;另一个原因是存储技术和处理技术问题,如果按照每个页面的平均大小计算为20K(包括图片)。100亿个网页的容量为100×2000G字节。即使可以存储,下载还是有问题(按照一台机器每秒下载20K计算,需要340台机器连续下载一年,下载所有网页需要时间)。同时,由于数据量大,在提供搜索时也会影响效率。因此,很多搜索引擎的网络蜘蛛只爬取那些重要的网页,爬取时评价重要性的主要依据是某个网页的链接深度。