搜索引擎如何抓取网页(设置robots禁止抓取的主要是基于两个的原因?)
优采云 发布时间: 2021-10-10 22:26搜索引擎如何抓取网页(设置robots禁止抓取的主要是基于两个的原因?)
问题:为什么爬虫被机器人禁止爬行,但搜索引擎仍能爬行?
答:严格来说,机器人限制蜘蛛爬行,搜索引擎也会遵循这个规则。百度搜索引擎目前对机器人的态度是,他们仍然会爬行,但不会保留百度快照。其他搜索引擎基本相同。
百度百科里有这么一篇文章:robots协议不是规范,只是约定,所以不保证网站的隐私。
禁止robots爬取的原因有二:一是新站点调试过程中不希望搜索引擎爬行;二是不希望网站下的某些目录页面被搜索引擎抓取。对于第一种,如果你根本不想被搜索引擎抓取,建议你在本地测试,或者使用其他域名绑定在线测试,测试后绑定目标域名没有问题。至于第二种,其实没有办法,因为如果搜索引擎不遵守robots规则,那我们好像也没有什么好办法阻止。如果搜索引擎收录限制了这些页面的抓取,我们只能去投诉有快照。
但是大家也要注意,搜索引擎抓取受robots文件限制的页面不会对网站造成太大影响。原则上这样不会浪费爬取份额,除了网站首页,很少有内部页面会被收录机器人限制爬取。所以,不要太担心。如果搜索引擎想抓住它,就让它抓住它。如果收录结束,请投诉并申请删除。
另外,有些朋友担心安全问题。搜索引擎蜘蛛只是一个工具。它本身不是恶意的,但会按照规则工作。不要把搜索引擎想得那么糟糕。如果网站没有敏感内容,在不影响网站优化的情况下,让蜘蛛爬行没有损失。大家不要惊慌!
至于为什么禁止机器人爬行而搜索引擎还会爬行,本文就简单说了这么多。总之,理论上搜索引擎还是会遵循robots规则的,不会乱乱收录这些被禁止的页面。