网页qq抓取什么原理(Google的“crawlcachingproxy”（缓存代理）(图))

优采云发布时间: 2022-01-30 23:18

　　引用自：

　　几天前，我们报道了谷歌的马特·卡茨证实，AdSense 的 Mediabot 确实会帮助 Googlebot 爬网，但有人不相信马特·卡茨，或者说他可以代表谷歌官员。作为马特卡茨博客的忠实读者，我认为没有必要花时间解释马特卡茨的权威。我想说的是，Matt Cutts 是谷歌质量管理部门的高级软件工程师，他以防止垃圾邮件和恶意控制排名的技术而闻名于世。所以，信不信由你，这当然取决于你。

　　事实上，马特上次透露的只是内容的一个方面。今天Matt再次写了一篇很详细的文章，讲解了谷歌的各种bots是如何抓取网页的，谷歌最新的BigDaddy在抓取网页方面有哪些新变化等等，内容很精彩，所以想分享一下和你一起。

　　首先要介绍的是谷歌的“爬网缓存代理”。Matt 举了一个 ISP 与用户的例子来说明这一点。用户上网时，总是先通过ISP获取网页的内容，然后ISP将用户访问的网页缓存起来进行备份。例如，当用户A访问时，中国电信（或中国网通等）会将“幻灭麦克风”发送给用户A，然后缓存“幻灭麦克风”，当用户B在下一秒再次访问时，然后中国电信将缓存中的“幻灭麦克风”发送给用户B，从而节省带宽。

　　正如本站此前报道的那样，谷歌最新的软件级升级（转移到BigDaddy）已接近尾声，因此升级后谷歌各方面的能力都会得到增强。这些增强功能包括更智能的 googlebot 抓取、改进的形式以及更好的收录页面功能。在Googlebot抓取和抓取网页方面，谷歌也采取了节省带宽的方法。Googlebot 还通过 BigDaddy 升级进行了升级。新的 Googlebot 已正式支持 gzip 编码，因此如果您的网站启用了 gzip 编码，您可以在 Googlebot 抓取您的网页时节省带宽。

　　除了改进的 Googlebot 外，升级后的 Google 将使用上面提到的抓取缓存代理来抓取网页，以进一步节省带宽。下图显示了传统 Googlebot 如何抓取网站：

　　从上图可以看出，Googlebot是主要的爬虫，Server A指的是AdSense，Server N可以是Google的blogsearch或者其他。我们可以看到，同一个网站，Googlebot、AdSense的Mediabot、blogsearch的bot都爬过，而且重复爬的次数很多。上图中总共爬取的页面数为23次。我们来看一下升级后的谷歌使用的爬取缓存代理的情况：

　　显然，由于爬取缓存代理缓存了各种机器人的爬取，当Googlebot已经爬取了部分页面，而Mediabot或其他机器人再次爬取重复页面时，爬取缓存代理就会发挥作用。缓存中的网页直接返回给Mediabot等，减少了实际爬取次数，节省带宽。

　　从Matt的分析可以看出，谷歌确实可以为自己和网站节省带宽。好处是谷歌的各种bot可以在一定时间内抓取更多的网页，从而方便收录。我的理解是，虽然好处是相当明显的，但也有缺点。例如，当一个网站以 AdSense *敏*感*词*为生时，它需要 AdSense 的 Mediabot 不断访问以分析其更新网页的内容并投放更多相关的广告。但是当这个网站是一个PR值不错的网站，那么Googlebot很可能每天都会抓取它，所以抓取缓存代理会缓存Googlebot的抓取，等待Mediabot回来抓取的时候，它直接将缓存的内容返回给 Mediabot。这减少了 Mediabot 抓取网站的次数。由于这两个机器人的工作方式并不完全相同，因此 Mediabot 抓取可能会降低所显示 AdSense 广告的这种网站相关性。因此，这种改进可能会带来一些不公平。

0

2022-01-30

网页qq抓取什么原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页qq抓取什么原理(Google的“crawlcachingproxy”（缓存代理）(图))

0 个评论

发起人