搜索引擎如何抓取网页(119.42.239.78的蜘蛛还在疯狂地搜索的访问频率还没试过)
优采云 发布时间: 2022-03-08 19:11搜索引擎如何抓取网页(119.42.239.78的蜘蛛还在疯狂地搜索的访问频率还没试过)
119.42.239.78一直在调用mt-search.cgi文件,因为使用这个搜索会记录在MT后台的Activity Log中。发现不是简单的搜索,而是疯狂的搜索,不断的搜索。查了一下,发现IP是杭州()电信,看来应该是雅虎的蜘蛛。
奇怪,我在 robots.txt 文件中限制了对 /cgi-bin/ 和 /tag/ 目录的访问,但是为什么雅虎的蜘蛛还在爬呢?诡异的。这让我想起了之前的一件事。我曾经要求我的网络托管服务提供商为我备份 网站,并将其放在根目录中。名字是wwwroot.rar。没有搜索找到这个文件,但是 yahoo 索引了这个文件...
.htaccess 受限访问
当然首先想到的是用.htaccess文件来限制这个IP的访问。我在MediaTemple的KB上找到了如下代码:
命令允许,拒绝
全部允许
拒绝 119.42.239.78
我也用自己的IP测试了一下,发现自己无法访问,但是等查看Activity Log后发现还有119.42.@ >239.@ >78 次搜索。
robots.txt 限制访问频率
我还没有尝试过,所以我不知道它是否有效。
用户代理:Slurp
抓取延迟:10
我觉得这个限制有点过分了,我已经禁止你访问所有目录了……
杀手锏,修改mt-search.cgi的权限
mt-search.cgi文件的权限真的没办法改成444,我用的是谷歌的CSE,所以没关系。
附:在每个月末,很难在 MediaTemple 上查看 GPU 使用情况。今天想查看一下yahoo爬虫对GPU的消耗,但是点击了几次就访问不了这个链接了。