搜索引擎如何抓取网页(iis日志有百度蜘蛛、谷歌蜘蛛等图24317-)

优采云发布时间: 2022-01-22 18:11

　　对于蜘蛛来说，据说网页的权重越高，信用越高，爬取越频繁。搜索引擎认为，对于普通的中小型网站，3层就足以承载所有内容。IIS日志包括百度蜘蛛、谷歌蜘蛛等。

　　图 24317-1：

　　蜘蛛首先爬取百度白名单的网站或者一些高度信任的站点和页面（例如：一些高权重的网站和网站首页），然后再爬取这些页面。找到了一些指向其他页面的链接。蜘蛛会将这些链接保存在自己的数据库中，然后按照爬取顺序依次爬取这些页面。

　　1、蜘蛛抓取网页的规则：

　　对于蜘蛛来说，网页权重越高，信用越高，爬取越频繁，比如网站的首页和内页。蜘蛛首先爬取网站的首页，因为首页的权重较高，而且大部分链接都指向首页。然后通过首页爬取网站的内页，并不是所有的内页蜘蛛都会爬。

　　搜索引擎认为对于一般的中小型网站来说，3层就足以承载所有的内容，所以蜘蛛经常抓取的内容是前三层，超过三层的蜘蛛认为那些内容是不重要，所以他们不经常爬行。

　　2、如何观察蜘蛛爬行？

　　通过iis日志，可以看到蜘蛛爬取了哪些内容。iis日志包括百度蜘蛛、谷歌蜘蛛等，蜘蛛的类型、爬取时间、爬取的页面、爬取内容的大小和返回的页面代码可以从iis日志的炫耀分析中得到， 200 表示爬取成功。

0

2022-01-22

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册