如何使用Robots.txt.文件的使用方法

优采云 发布时间: 2021-07-21 20:44

  如何使用Robots.txt.文件的使用方法

  Robots.txt 是存储在站点根目录中的纯文本文件。虽然它的设置很简单,但是它的效果却非常强大。可以指定搜索引擎蜘蛛只抓取指定的内容,或者禁止搜索引擎蜘蛛抓取网站的部分或全部。

  使用方法:

  Robots.txt 文件应该放在网站root 目录下,该文件可以通过互联网访问。

  例如:如果你的网站地址是那个,那么文件必须能够打开并看到里面的内容。

  格式:

  用户代理:

  用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中,如果有多个User-agent记录,则意味着多个搜索引擎蜘蛛会受到协议的限制。对于这个文件,至少必须有一个 User-agent 记录。如果此项的值设置为*,则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中,只能有“User-agent:*”等一条记录。

  禁止:

  用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。 Robot 不会访问任何以 Disallow 开头的 URL。

  示例:

  示例 1:“Disallow:/help”表示不允许搜索引擎蜘蛛抓取 /help.html 和 /help/index.html。

  示例2:“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html,但不允许抓取/help/index.html。

  例3:如果Disallow记录为空,表示该网站的所有页面都允许被搜索引擎抓取。 “/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”为空文件,对于所有搜索引擎蜘蛛来说,网站是开放的,可以被抓取。

  #:Robots.txt 协议中的注释字符。

  综合示例:

  示例1:使用“/robots.txt”禁止所有搜索引擎蜘蛛抓取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件,设置方法为如下:

  用户代理:*

  禁止:/bin/cgi/

  禁止:/tmp/

  禁止:/foo.html

  示例2:通过“/robots.txt”,只允许一个搜索引擎抓取,禁止其他搜索引擎抓取。例如,只允许名为“slurp”的搜索引擎蜘蛛抓取,不允许其他搜索引擎蜘蛛抓取“/cgi/”目录下的内容。设置方法如下:

  用户代理:*

  禁止:/cgi/

  用户代理:slurp

  禁止:

  示例3:禁止任何搜索引擎抓取我的网站,设置方法如下:

  用户代理:*

  禁止:/

  例4:只禁止某个搜索引擎爬取我的网站 如:只禁止名为“slurp”的搜索引擎蜘蛛爬取,设置方法如下:

  用户代理:slurp

  禁止:/

  更多参考资料(英文版)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线