搜索引擎如何抓取网页(蜘蛛没有选择地抓取页面的相关策略(一)_)
优采云 发布时间: 2022-03-16 06:20搜索引擎如何抓取网页(蜘蛛没有选择地抓取页面的相关策略(一)_)
搜索引擎蜘蛛有几种抓取网页的策略。时间:07-27 12:36 浏览:149 在前面的内容中,介绍了搜索引擎的工作原理。下面就其工作原理中的爬取网页进一步介绍爬取网页的相关策略。网上每天都有很多网站的网页更新,如果蜘蛛不选择性地抓取页面,那将是一个非常...
在上一节中,我们介绍了搜索引擎的工作原理。下面就其工作原理中的爬取网页进一步介绍爬取网页的相关策略。互联网上每天都有很多网站网页更新。如果蜘蛛没有选择性地抓取页面,那将是一个工作量非常大的任务。因此,蜘蛛有一定的爬行策略。就像我们在买东西时需要挑选一样,蜘蛛在抓取网页时也是有选择性的。蜘蛛选择网页的策略可以分为以下几个部分。爬虫以深度优先、广度优先、权重优先和重访爬取的方式对网页进行爬取。
1.深度优先
搜索引擎蜘蛛在一个页面上找到一个链接然后往下爬这个链接,然后在下一页找到一个链接,然后往下爬,把所有的都爬下来。这是深度优先的爬取策略。这种抓取方式的思想是深度优先策略的中心思想。
2.广度优先
搜索引擎蜘蛛会先爬取整个页面的所有链接,然后再爬取下一页的所有链接,也就是宽度优先。由于搜索引擎蜘蛛的广度优先策略,我们在SEO实施过程中需要保证网页的层数不宜过多。如果太多,就会很难收录。
3.重量优先
现在搜索引擎采用深度优先和广度优先的组合策略,两者都没有绝对的优劣,各有特点。在这种情况下,我们需要参考链接的权重。如果链接权重好,则先使用深度;如果链接权重较低,则先使用宽度。
由于上述原因,搜索引擎蜘蛛从两个因素衡量链接权重:
(1)多少级;
(2)外部链接的数量和质量。
4.重温爬行
如果一个搜索引擎蜘蛛昨天抓取了这个页面,今天更新了这个页面后,又重新抓取了新的内容,这就是重访抓取的策略。重访爬虫可分为全重访和单次重访。
(1)Revisit all: 蜘蛛上次爬的链接,然后在这个月的某一天,全部revisit,爬一次。
(2)单次重访:单次重访一般是针对更新频率比较快且稳定的页面。如果一个页面一个月不更新一次,那么第一天搜索引擎蜘蛛就会来,网站是这样的,第二天也是这样',那么搜索引擎蜘蛛第三天就不会来了,过一段时间又来了,比如隔一个月,或者什么时候来'重新审视。