搜索引擎如何抓取网页( 如何用robts.txt这个文档去控制搜索蜘蛛网站站长)

优采云发布时间: 2021-09-28 18:05

　　搜索引擎如何抓取网页(

如何用robts.txt这个文档去控制搜索蜘蛛网站站长)

　　如何使用robots.txt防止搜索引擎爬（爬取）你的网站？

　　为了你的网站可以被其他人搜索到，搜索引擎爬虫，有时也被称为搜索机器人（bots）或搜索蜘蛛（spiders），会爬取你的网站，搜索可能会改变内容并重新- 更新搜索引擎的搜索和检索。

　　如何使用robts.txt控制搜索蜘蛛

　　网站站长可以使用robots.txt文档来指导搜索蜘蛛如何抓取这个网站。搜索引擎爬取网站时，会先读取robots.tx文件，并按照规则爬取网站。

　　※ 虽然robots.txt规则很重要，但搜索机器人不一定会遵守robot.txt规则，它只是一个操作策略。

　　※谷歌设置Crawl-delay必须在谷歌管理工具中设置。

　　※对于那些乱爬你的网站的劣质搜索蜘蛛，你应该研究如何使用.htamless中的User-agent来屏蔽不良搜索蜘蛛。

　　编辑并创建 robots.txt 文件

　　Robots.txt文件必须放在网站的根目录下，如果你的网站是可读的。

　　网址位置：

　　服务器位置：

　　/home/userna5/public_html/robots.txt

　　如果没有这个文档，可以使用纯文档文档新建一个robots.txt文档。

　　搜索引擎用户代理

　　对于搜索引擎蜘蛛的User-agent，使用robots.txt文件来控制是最常用的标准方法。

　　搜索蜘蛛爬取网站时，会被识别为User-agent。下面提供了一些参考示例

　　美国最常见的前三个搜索引擎用户代理：

　　谷歌机器人

　　雅虎！啜饮

　　宾博

　　最常被屏蔽的搜索引擎用户代理：

　　机器人

　　百度蜘蛛

　　放大镜

　　MJ12bot

　　Yandex机器人

　　搜索引擎蜘蛛会使用robots.txt文档规则进行爬取网站

　　robots.txt 文件有很多规则来控制搜索蜘蛛如何抓取你网站。

　　User-agent：可以指定哪个User-agent适用，比如*是所有User-agent的通用搭配。

　　禁止：设置文档或文件夹不被搜索蜘蛛抓取。

　　设置所有搜索引擎延迟抓取

　　如果您的网站有 1000 页，搜索蜘蛛可能会在几分钟内检索所有网站。但是，这可能会导致系统资源的过度使用，并在短时间内使所有网页过载。结果无法浏览网页。

　　30 秒的延迟将允许搜索蜘蛛在 8.3 小时内检索 1,000 个网页。

　　500 秒的延迟将允许搜索蜘蛛在 5.8 天内检索 1,000 个网页。

　　也可以设置Crawl-delay：所有搜索蜘蛛立即搜索。

　　用户代理： *

　　爬行延迟：30

　　允许搜索蜘蛛抓取所有网站

　　在默认的空白条件下，搜索引擎蜘蛛仍然会抓取你的网站，但你仍然可以指定它是允许的。

　　用户代理： *

　　不允许：

　　不允许搜索蜘蛛抓取所有网站

　　用户代理： *

　　不允许： /

　　不允许搜索蜘蛛抓取特定的网站

　　您可以使用这些规则来禁止特定搜索引擎蜘蛛抓取您的网站。

　　用户代理：百度蜘蛛

　　不允许： /

　　不允许所有搜索蜘蛛抓取特定文档

　　如果一些文件如contactus.htm、index.htm、store.htm不想被搜索蜘蛛抓取，我可以使用：

　　用户代理： *

　　禁止：/contactus.htm

　　禁止：/index.htm

　　禁止：/store.htm

　　除了指定的，所有搜索蜘蛛都不允许爬行

　　如果我们只想让 Googlebot 抓取我们的 /private/ 目录，而不允许其他搜索蜘蛛抓取，我们可以这样使用它：

　　用户代理： *

　　不允许： /

　　用户代理：Googlebot

　　禁止：/私人/

　　当Googlebot 读取我的robots.txt 文件时，它会理解该文件的内容，并且不会禁止抓取所有目录。

　　如果您只想抓取和检索一个网页，请参考（使用标签阻止搜索蜘蛛检索网页）

0

2021-09-28

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页( 如何用robts.txt这个文档去控制搜索蜘蛛网站站长)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页( 如何用robts.txt这个文档去控制搜索蜘蛛网站站长)

0 个评论

发起人

相关问题