如何使用Robots.txt.文件的使用方法

优采云发布时间: 2021-07-21 20:44

　　Robots.txt 是存储在站点根目录中的纯文本文件。虽然它的设置很简单，但是它的效果却非常强大。可以指定搜索引擎蜘蛛只抓取指定的内容，或者禁止搜索引擎蜘蛛抓取网站的部分或全部。

　　使用方法：

　　Robots.txt 文件应该放在网站root 目录下，该文件可以通过互联网访问。

　　例如：如果你的网站地址是那个，那么文件必须能够打开并看到里面的内容。

　　格式：

　　用户代理：

　　用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中，如果有多个User-agent记录，则意味着多个搜索引擎蜘蛛会受到协议的限制。对于这个文件，至少必须有一个 User-agent 记录。如果此项的值设置为*，则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中，只能有“User-agent:*”等一条记录。

　　禁止：

　　用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。 Robot 不会访问任何以 Disallow 开头的 URL。

　　示例：

　　示例 1：“Disallow:/help”表示不允许搜索引擎蜘蛛抓取 /help.html 和 /help/index.html。

　　示例2：“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html，但不允许抓取/help/index.html。

　　例3：如果Disallow记录为空，表示该网站的所有页面都允许被搜索引擎抓取。 “/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”为空文件，对于所有搜索引擎蜘蛛来说，网站是开放的，可以被抓取。

　　#：Robots.txt 协议中的注释字符。

　　综合示例：

　　示例1：使用“/robots.txt”禁止所有搜索引擎蜘蛛抓取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件，设置方法为如下：

　　用户代理：*

　　禁止：/bin/cgi/

　　禁止：/tmp/

　　禁止：/foo.html

　　示例2：通过“/robots.txt”，只允许一个搜索引擎抓取，禁止其他搜索引擎抓取。例如，只允许名为“slurp”的搜索引擎蜘蛛抓取，不允许其他搜索引擎蜘蛛抓取“/cgi/”目录下的内容。设置方法如下：

　　用户代理：*

　　禁止：/cgi/

　　用户代理：slurp

　　禁止：

　　示例3：禁止任何搜索引擎抓取我的网站，设置方法如下：

　　用户代理：*

　　禁止：/

　　例4：只禁止某个搜索引擎爬取我的网站如：只禁止名为“slurp”的搜索引擎蜘蛛爬取，设置方法如下：

　　用户代理：slurp

　　禁止：/

　　更多参考资料（英文版）

0

2021-07-21

搜索指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何使用Robots.txt.文件的使用方法

0 个评论

发起人

AI时代内容工厂

如何使用Robots.txt.文件的使用方法

0 个评论

发起人

相关问题