搜索引擎如何抓取网页(了解搜索引擎蜘蛛是第一步_SEO优化_光明网 )

优采云 发布时间: 2022-01-16 19:04

  搜索引擎如何抓取网页(了解搜索引擎蜘蛛是第一步_SEO优化_光明网

)

  作为SEO,我们的工作与搜索引擎息息相关,所以我们必须了解搜索引擎。我们的 网站 如何出现在搜索引擎搜索结果中?了解搜索引擎蜘蛛是第一步。

  一、什么是搜索引擎蜘蛛?

  搜索引擎蜘蛛是搜索引擎抓取网页的程序,准确地称为“搜索引擎机器人”。

  为什么叫蜘蛛?这是因为搜索引擎程序在抓取互联网上的网页时,会沿着网页上的超链接,从这个网页到另一个网页,从这个网站到另一个网站,和蜘蛛爬行一样。这就是为什么互联网人将搜索引擎抓取网页的程序称为“蜘蛛”。

  

  在互联网世界里,有很多搜索引擎,每个搜索引擎都有自己的爬虫——蜘蛛:

  二、搜索引擎蜘蛛的工作原理

  1、最高优先级。

  最佳优先级搜索策略根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。它只访问网页分析算法预测为“有用”的网页。

  存在的一个问题是爬虫的爬取路径上很多相关的网页可能会被忽略,因为最佳优先级策略是局部最优搜索算法,所以需要结合具体应用来提高最佳优先级,为了跳出局部最优点,根据马海翔博客的研究发现,这样的闭环调整可以将不相关页面的数量减少30%~90%。

  2、深度优先。

  深度优先是指蜘蛛沿着找到的链接爬行,直到前面没有其他链接,然后返回第一页,沿着另一个链接爬行。

  

  3、广度优先。

  广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一路跟随一个链接,而是爬取页面上的所有链接,然后进入页面的第二层并跟随第二层层。找到的链接爬到第三层页面。

  注意:为了爬取尽可能多的信息,深度优先和广度优先通常是混合使用的。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线