搜索引擎如何抓取网页(119.42.239.78的蜘蛛还在疯狂地搜索的访问频率还没试过)

优采云发布时间: 2022-03-08 19:11

　　119.42.239.78一直在调用mt-search.cgi文件，因为使用这个搜索会记录在MT后台的Activity Log中。发现不是简单的搜索，而是疯狂的搜索，不断的搜索。查了一下，发现IP是杭州（）电信，看来应该是雅虎的蜘蛛。

　　奇怪，我在 robots.txt 文件中限制了对 /cgi-bin/ 和 /tag/ 目录的访问，但是为什么雅虎的蜘蛛还在爬呢？诡异的。这让我想起了之前的一件事。我曾经要求我的网络托管服务提供商为我备份网站，并将其放在根目录中。名字是wwwroot.rar。没有搜索找到这个文件，但是 yahoo 索引了这个文件...

　　.htaccess 受限访问

　　当然首先想到的是用.htaccess文件来限制这个IP的访问。我在MediaTemple的KB上找到了如下代码：

　　命令允许，拒绝

　　全部允许

　　拒绝 119.42.239.78

　　我也用自己的IP测试了一下，发现自己无法访问，但是等查看Activity Log后发现还有119.42.@ >239.@ >78 次搜索。

　　robots.txt 限制访问频率

　　我还没有尝试过，所以我不知道它是否有效。

　　用户代理：Slurp

　　抓取延迟：10

　　我觉得这个限制有点过分了，我已经禁止你访问所有目录了……

　　杀手锏，修改mt-search.cgi的权限

　　mt-search.cgi文件的权限真的没办法改成444，我用的是谷歌的CSE，所以没关系。

　　附：在每个月末，很难在 MediaTemple 上查看 GPU 使用情况。今天想查看一下yahoo爬虫对GPU的消耗，但是点击了几次就访问不了这个链接了。

0

2022-03-08

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(119.42.239.78的蜘蛛还在疯狂地搜索的访问频率还没试过)

0 个评论

发起人