网页qq抓取什么原理(Google的“crawlcachingproxy”(缓存代理)(图))
优采云 发布时间: 2022-01-30 23:18网页qq抓取什么原理(Google的“crawlcachingproxy”(缓存代理)(图))
引用自:
几天前,我们报道了谷歌的马特·卡茨证实,AdSense 的 Mediabot 确实会帮助 Googlebot 爬网,但有人不相信马特·卡茨,或者说他可以代表谷歌官员。作为马特卡茨博客的忠实读者,我认为没有必要花时间解释马特卡茨的权威。我想说的是,Matt Cutts 是谷歌质量管理部门的高级软件工程师,他以防止垃圾邮件和恶意控制排名的技术而闻名于世。所以,信不信由你,这当然取决于你。
事实上,马特上次透露的只是内容的一个方面。今天Matt再次写了一篇很详细的文章,讲解了谷歌的各种bots是如何抓取网页的,谷歌最新的BigDaddy在抓取网页方面有哪些新变化等等,内容很精彩,所以想分享一下和你一起。
首先要介绍的是谷歌的“爬网缓存代理”。Matt 举了一个 ISP 与用户的例子来说明这一点。用户上网时,总是先通过ISP获取网页的内容,然后ISP将用户访问的网页缓存起来进行备份。例如,当用户A访问时,中国电信(或中国网通等)会将“幻灭麦克风”发送给用户A,然后缓存“幻灭麦克风”,当用户B在下一秒再次访问时,然后中国电信将缓存中的“幻灭麦克风”发送给用户B,从而节省带宽。
正如本站此前报道的那样,谷歌最新的软件级升级(转移到BigDaddy)已接近尾声,因此升级后谷歌各方面的能力都会得到增强。这些增强功能包括更智能的 googlebot 抓取、改进的形式以及更好的 收录 页面功能。在Googlebot抓取和抓取网页方面,谷歌也采取了节省带宽的方法。Googlebot 还通过 BigDaddy 升级进行了升级。新的 Googlebot 已正式支持 gzip 编码,因此如果您的 网站 启用了 gzip 编码,您可以在 Googlebot 抓取您的网页时节省带宽。
除了改进的 Googlebot 外,升级后的 Google 将使用上面提到的抓取缓存代理来抓取网页,以进一步节省带宽。下图显示了传统 Googlebot 如何抓取 网站:
从上图可以看出,Googlebot是主要的爬虫,Server A指的是AdSense,Server N可以是Google的blogsearch或者其他。我们可以看到,同一个网站,Googlebot、AdSense的Mediabot、blogsearch的bot都爬过,而且重复爬的次数很多。上图中总共爬取的页面数为23次。我们来看一下升级后的谷歌使用的爬取缓存代理的情况:
显然,由于爬取缓存代理缓存了各种机器人的爬取,当Googlebot已经爬取了部分页面,而Mediabot或其他机器人再次爬取重复页面时,爬取缓存代理就会发挥作用。缓存中的网页直接返回给Mediabot等,减少了实际爬取次数,节省带宽。
从Matt的分析可以看出,谷歌确实可以为自己和网站节省带宽。好处是谷歌的各种bot可以在一定时间内抓取更多的网页,从而方便收录。我的理解是,虽然好处是相当明显的,但也有缺点。例如,当一个 网站 以 AdSense *敏*感*词*为生时,它需要 AdSense 的 Mediabot 不断访问以分析其更新网页的内容并投放更多相关的广告。但是当这个网站是一个PR值不错的网站,那么Googlebot很可能每天都会抓取它,所以抓取缓存代理会缓存Googlebot的抓取,等待Mediabot回来抓取的时候,它直接将缓存的内容返回给 Mediabot。这减少了 Mediabot 抓取 网站 的次数。由于这两个机器人的工作方式并不完全相同,因此 Mediabot 抓取可能会降低所显示 AdSense 广告的这种网站相关性。因此,这种改进可能会带来一些不公平。