搜索引擎如何抓取网页(了解搜索引擎蜘蛛是第一步_SEO优化_光明网 )

优采云发布时间: 2022-01-16 19:04

　　搜索引擎如何抓取网页(了解搜索引擎蜘蛛是第一步_SEO优化_光明网

)

　　作为SEO，我们的工作与搜索引擎息息相关，所以我们必须了解搜索引擎。我们的网站如何出现在搜索引擎搜索结果中？了解搜索引擎蜘蛛是第一步。

　　一、什么是搜索引擎蜘蛛？

　　搜索引擎蜘蛛是搜索引擎抓取网页的程序，准确地称为“搜索引擎机器人”。

　　为什么叫蜘蛛？这是因为搜索引擎程序在抓取互联网上的网页时，会沿着网页上的超链接，从这个网页到另一个网页，从这个网站到另一个网站，和蜘蛛爬行一样。这就是为什么互联网人将搜索引擎抓取网页的程序称为“蜘蛛”。

　　在互联网世界里，有很多搜索引擎，每个搜索引擎都有自己的爬虫——蜘蛛：

　　二、搜索引擎蜘蛛的工作原理

　　1、最高优先级。

　　最佳优先级搜索策略根据一定的网页分析算法预测候选URL与目标网页的相似度，或与主题的相关度，选择评价最好的一个或几个URL进行爬取。它只访问网页分析算法预测为“有用”的网页。

　　存在的一个问题是爬虫的爬取路径上很多相关的网页可能会被忽略，因为最佳优先级策略是局部最优搜索算法，所以需要结合具体应用来提高最佳优先级,为了跳出局部最优点，根据马海翔博客的研究发现，这样的闭环调整可以将不相关页面的数量减少30%~90%。

　　2、深度优先。

　　深度优先是指蜘蛛沿着找到的链接爬行，直到前面没有其他链接，然后返回第一页，沿着另一个链接爬行。

　　3、广度优先。

　　广度优先是指当蜘蛛在一个页面上发现多个链接时，它不会一路跟随一个链接，而是爬取页面上的所有链接，然后进入页面的第二层并跟随第二层层。找到的链接爬到第三层页面。

　　注意：为了爬取尽可能多的信息，深度优先和广度优先通常是混合使用的。

0

2022-01-16

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册