搜索引擎如何抓取网页(蜘蛛没有选择地抓取页面的相关策略(一)_)

优采云 发布时间: 2022-03-16 06:20

  搜索引擎如何抓取网页(蜘蛛没有选择地抓取页面的相关策略(一)_)

  搜索引擎蜘蛛有几种抓取网页的策略。时间:07-27 12:36 浏览:149 在前面的内容中,介绍了搜索引擎的工作原理。下面就其工作原理中的爬取网页进一步介绍爬取网页的相关策略。网上每天都有很多网站的网页更新,如果蜘蛛不选择性地抓取页面,那将是一个非常...

  在上一节中,我们介绍了搜索引擎的工作原理。下面就其工作原理中的爬取网页进一步介绍爬取网页的相关策略。互联网上每天都有很多网站网页更新。如果蜘蛛没有选择性地抓取页面,那将是一个工作量非常大的任务。因此,蜘蛛有一定的爬行策略。就像我们在买东西时需要挑选一样,蜘蛛在抓取网页时也是有选择性的。蜘蛛选择网页的策略可以分为以下几个部分。爬虫以深度优先、广度优先、权重优先和重访爬取的方式对网页进行爬取。

  

  1.深度优先

  搜索引擎蜘蛛在一个页面上找到一个链接然后往下爬这个链接,然后在下一页找到一个链接,然后往下爬,把所有的都爬下来。这是深度优先的爬取策略。这种抓取方式的思想是深度优先策略的中心思想。

  

  2.广度优先

  搜索引擎蜘蛛会先爬取整个页面的所有链接,然后再爬取下一页的所有链接,也就是宽度优先。由于搜索引擎蜘蛛的广度优先策略,我们在SEO实施过程中需要保证网页的层数不宜过多。如果太多,就会很难收录。

  3.重量优先

  现在搜索引擎采用深度优先和广度优先的组合策略,两者都没有绝对的优劣,各有特点。在这种情况下,我们需要参考链接的权重。如果链接权重好,则先使用深度;如果链接权重较低,则先使用宽度。

  由于上述原因,搜索引擎蜘蛛从两个因素衡量链接权重:

  (1)多少级;

  (2)外部链接的数量和质量。

  4.重温爬行

  

  如果一个搜索引擎蜘蛛昨天抓取了这个页面,今天更新了这个页面后,又重新抓取了新的内容,这就是重访抓取的策略。重访爬虫可分为全重访和单次重访。

  (1)Revisit all: 蜘蛛上次爬的链接,然后在这个月的某一天,全部revisit,爬一次。

  (2)单次重访:单次重访一般是针对更新频率比较快且稳定的页面。如果一个页面一个月不更新一次,那么第一天搜索引擎蜘蛛就会来,网站是这样的,第二天也是这样',那么搜索引擎蜘蛛第三天就不会来了,过一段时间又来了,比如隔一个月,或者什么时候来'重新审视。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线