搜索引擎如何抓取网页(搜索引擎蜘蛛是怎样抓取网站页面的呢？蜘蛛抓取策略问题)

优采云发布时间: 2022-03-12 11:20

　　一个网站，如果你想在网上有好的展示，除了付费SEM竞价推广，基本上可以利用搜索引擎优化规则来提升网站关键词的排名，那就是我们常见的SEO优化。做过SEO优化的朋友一般都了解蜘蛛爬取的概念，那么搜索引擎蜘蛛是如何爬取网站页面的呢？

　　蜘蛛是如何抓取网页的，你首先要知道蜘蛛有哪些种类。

　　1.批处理型蜘蛛。

　　这种蜘蛛基本上每天完成固定的目标和爬取任务，比如在规定的爬取范围内爬取的网页数量，或者网页的大小、爬取时间等。

　　2.垂直蜘蛛。

　　该蜘蛛将爬取特定主题或行业。比如旅游行业的蜘蛛只会爬取旅游相关的话题，不会爬取其他内容。这种蜘蛛的难点在于它们需要识别内容所属的行业。目前很多垂直行业网站都是基于这种蜘蛛爬行的。

　　3.增量蜘蛛。

　　与批量蜘蛛不同的是，这些蜘蛛会继续爬取并定期更新爬取的页面。增量蜘蛛通常保持这种状态。比如我们常见的快照爬取就是增量爬虫。

　　其次，我们可以考虑蜘蛛的爬行策略。

　　爬取策略是一个非常复杂的过程。爬虫一般从主 URL 爬取，然后展开大量 URL。但是，这涉及到爬取顺序的问题，一般根据爬取策略来确定。当然，无论是哪种策略，都会对网页进行综合评价，然后根据页面内容、链接权重等方面计算排名。

　　1.广度优先策略（也称为广度优先策略）。

　　抓取一个网页，然后按顺序进一步抓取其他页面。这个过程在我们的视觉体验中很简单，就是这个网页上有哪些链接，然后点击展开。

　　2.权重价值策略。

　　一个典型的搜索引擎内部值算法，根据不同页面传递的权重值，然后爬取这个值。

　　3.大网站优化策略。

　　一般新站点一开始的爬取时间很小，很多大的网站会在更新后几乎立即收录或者更新快照。这是大网站的优先爬取策略。

　　4.深度优先策略。

　　对于具体的站点，深度优化策略会根据站点的主 URL 继续沿着链接爬取。沿着一条线爬取后，会继续返回首页爬取第二个链接，直到爬取完成。.

　　那么网页是否更新了，蜘蛛是怎么爬的呢？做SEO优化的朋友一般都会保持网站更新，可能不清楚为什么要这么做。其实，为什么要保持网站更新，主要是因为蜘蛛在爬取页面的时候，会按照历史参考策略进行爬取。通俗的理解是网页已经按照一个规则更新了，那么搜索引擎会认为以后页面会按照这个规则更新，所以蜘蛛也会按照这个规则进行爬取。

　　此外，还有基于用户体验的爬取。比如我们经常搜索一个结果，内容可能不是最新显示的，而是显示在最前面，主要是这个页面的价值很高，可以解决大部分用户需求；聚类抽样爬取策略，即根据网页和相似页面的属性，对分类的页面按照相同的规则进行更新。

　　如果蜘蛛遇到爬取的内容页面，它会以什么顺序爬取？

　　我们可以用站长的模拟爬取方式来查看，基本的爬取顺序是从上到下，从左到右，最后是一些JS调用的内容，调用基本一致。所以，我们在创建网页的时候，要尽量减少对JS调用的使用，优化，尽量把重要的网站内容放在最重要的位置，比如Logo位置，Title，导航栏位置。

0

2022-03-12

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎蜘蛛是怎样抓取网站页面的呢？蜘蛛抓取策略问题)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎蜘蛛是怎样抓取网站页面的呢？蜘蛛抓取策略问题)

0 个评论

发起人

相关问题