搜索引擎如何抓取网页(iis日志有百度蜘蛛、谷歌蜘蛛等图24317-)
优采云 发布时间: 2022-01-22 18:11搜索引擎如何抓取网页(iis日志有百度蜘蛛、谷歌蜘蛛等图24317-)
对于蜘蛛来说,据说网页的权重越高,信用越高,爬取越频繁。搜索引擎认为,对于普通的中小型网站,3层就足以承载所有内容。IIS日志包括百度蜘蛛、谷歌蜘蛛等。
图 24317-1:
蜘蛛首先爬取百度白名单的网站或者一些高度信任的站点和页面(例如:一些高权重的网站和网站首页),然后再爬取这些页面。找到了一些指向其他页面的链接。蜘蛛会将这些链接保存在自己的数据库中,然后按照爬取顺序依次爬取这些页面。
1、蜘蛛抓取网页的规则:
对于蜘蛛来说,网页权重越高,信用越高,爬取越频繁,比如网站的首页和内页。蜘蛛首先爬取网站的首页,因为首页的权重较高,而且大部分链接都指向首页。然后通过首页爬取网站的内页,并不是所有的内页蜘蛛都会爬。
搜索引擎认为对于一般的中小型网站来说,3层就足以承载所有的内容,所以蜘蛛经常抓取的内容是前三层,超过三层的蜘蛛认为那些内容是不重要,所以他们不经常爬行。
2、如何观察蜘蛛爬行?
通过iis日志,可以看到蜘蛛爬取了哪些内容。iis日志包括百度蜘蛛、谷歌蜘蛛等,蜘蛛的类型、爬取时间、爬取的页面、爬取内容的大小和返回的页面代码可以从iis日志的炫耀分析中得到, 200 表示爬取成功。