搜索引擎如何抓取网页(设置robots禁止抓取的主要是基于两个的原因？)

优采云发布时间: 2021-10-10 22:26

　　问题：为什么爬虫被机器人禁止爬行，但搜索引擎仍能爬行？

　　答：严格来说，机器人限制蜘蛛爬行，搜索引擎也会遵循这个规则。百度搜索引擎目前对机器人的态度是，他们仍然会爬行，但不会保留百度快照。其他搜索引擎基本相同。

　　百度百科里有这么一篇文章：robots协议不是规范，只是约定，所以不保证网站的隐私。

　　禁止robots爬取的原因有二：一是新站点调试过程中不希望搜索引擎爬行；二是不希望网站下的某些目录页面被搜索引擎抓取。对于第一种，如果你根本不想被搜索引擎抓取，建议你在本地测试，或者使用其他域名绑定在线测试，测试后绑定目标域名没有问题。至于第二种，其实没有办法，因为如果搜索引擎不遵守robots规则，那我们好像也没有什么好办法阻止。如果搜索引擎收录限制了这些页面的抓取，我们只能去投诉有快照。

　　但是大家也要注意，搜索引擎抓取受robots文件限制的页面不会对网站造成太大影响。原则上这样不会浪费爬取份额，除了网站首页，很少有内部页面会被收录机器人限制爬取。所以，不要太担心。如果搜索引擎想抓住它，就让它抓住它。如果收录结束，请投诉并申请删除。

　　另外，有些朋友担心安全问题。搜索引擎蜘蛛只是一个工具。它本身不是恶意的，但会按照规则工作。不要把搜索引擎想得那么糟糕。如果网站没有敏感内容，在不影响网站优化的情况下，让蜘蛛爬行没有损失。大家不要惊慌！

　　至于为什么禁止机器人爬行而搜索引擎还会爬行，本文就简单说了这么多。总之，理论上搜索引擎还是会遵循robots规则的，不会乱乱收录这些被禁止的页面。

0

2021-10-10

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(设置robots禁止抓取的主要是基于两个的原因？)

0 个评论

发起人