搜索引擎如何抓取网页(网络蜘蛛即WebSpider的原因及处理技术的问题分析)

优采云发布时间: 2021-10-13 23:33

　　网络蜘蛛，或者说网络蜘蛛，是一个非常形象的名字。把互联网比作蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址搜索网页。从某个页面（通常是首页）开始，阅读网页内容，找到网页中的其他链接地址，然后通过这些链接地址进行搜索。一个网页，这样一直循环下去，直到这个网站的所有网页都被抓取完。如果把整个互联网看作一个网站，那么网络蜘蛛就可以利用这个原理抓取互联网上的所有网页。

　　对于搜索引擎来说，爬取互联网上的所有网页几乎是不可能的。从目前公布的数据来看，容量最大的搜索引擎只能抓取整个网页的40%左右。造成这种情况的原因之一是爬虫技术的瓶颈，无法遍历所有网页，很多网页无法从其他网页的链接中找到；另一个原因是存储技术和处理技术问题，如果按照每个页面的平均大小计算为20K（包括图片）。100亿个网页的容量为100×2000G字节。即使可以存储，下载还是有问题（按照一台机器每秒下载20K计算，需要340台机器连续下载一年，下载所有网页需要时间）。同时，由于数据量大，在提供搜索时也会影响效率。因此，很多搜索引擎的网络蜘蛛只爬取那些重要的网页，爬取时评价重要性的主要依据是某个网页的链接深度。

0

2021-10-13

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(网络蜘蛛即WebSpider的原因及处理技术的问题分析)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(网络蜘蛛即WebSpider的原因及处理技术的问题分析)

0 个评论

发起人

相关问题