搜索引擎禁止的方式优化网站(什么是robots.txt文件?通过一种程序)

优采云发布时间: 2021-09-30 10:03

　　robots.txt文件是什么

　　搜索引擎自动访问互联网上的网页，并通过程序机器人（也称为蜘蛛）获取网页信息

　　您可以在网站中创建一个纯文本文件robots.txt，并在此文件中声明网站中您不希望机器人访问的部分。这样，搜索引擎收录无法访问网站的部分或全部内容，或指定搜索引擎仅指定收录指定的内容

　　robots.txt文件在哪里

　　robots.txt文件应放在网站根目录中。例如，当机器人访问一个网站（例如），他们将首先检查文件是否存在于网站。如果robot找到文件，它将根据文件的内容确定其访问权限的范围

　　网站URL

　　相应robots.txt的URL

　　：80/

　　：80/robots.txt

　　：1234/

　　：1234/robots.txt

　　robots.txt文件的格式

　　“robots.TXT”文件收录一个或多个由空行分隔的记录（使用Cr、Cr/NL或NL作为终止符）。每条记录的格式如下：

　　“：”

　　在此文件中，可以使用#进行注释。具体方法与UNIX中的约定相同。此文件中的记录通常以用户代理的一行或多行开始，然后是几个不允许的行。详情如下:

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中，如果存在多个用户代理记录，则表示多个机器人将受到协议的限制。对于此文件，必须至少有一个用户代理记录。如果此项的值设置为*，则协议对任何机器人都有效。在“robots.TXT”文件中，只能有一条记录，如“user agent:*”

　　禁止：

　　此项的值用于描述不希望访问的URL。此URL可以是完整路径或部分路径。机器人不会访问任何以“禁止”开头的URL。例如，“disallow:/help”不允许搜索引擎访问/help.html和/help/index.html，而“disallow:/help/”允许机器人访问/help.html，但不允许访问/help/index.html。如果任何不允许的记录为空，则允许访问网站的所有部分。“/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”是空文件，网站对所有搜索引擎robots打开

　　robots.txt文件使用示例

　　例如，1.所有搜索引擎都被禁止访问网站

　　下载robots.txt文件

　　用户代理：*

　　禁止：/

　　例如，2.允许所有机器人访问（或创建一个空文件“/robots.TXT”文件）

　　用户代理：*

　　禁止：

　　示例3.禁止访问搜索引擎

　　用户代理：BadBot

　　禁止：/

　　示例4.允许访问搜索引擎

　　用户代理：baiduspider

　　禁止：

　　用户代理：*

　　禁止：/

　　示例5.一个简单的示例

　　在本例中，网站有三个目录限制搜索引擎的访问，即搜索引擎不会访问这三个目录

　　应该注意的是，每个目录必须单独声明，而不是写为“不允许：/CGI-bin//TMP/”

　　*after user agent:具有特殊含义，表示“任何机器人”，因此“disallow:/TMP/*”或“disallow:.GIF”等记录不能出现在此文件中

　　用户代理：*

　　不允许：/cgi-bin/

　　不允许：/tmp/

　　不允许：/~乔/

　　Robots.txt文件参考

　　有关robots.txt文件的更多具体设置，请参阅以下链接：

　　·机器人排除协议Web服务器管理员指南

　　·机器人排除协议HTML作者指南

　　·最初的1994年议定书说明，目前已部署

　　·修订后的互联网规范草案，尚未完成或实施

0

2021-09-30

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(什么是robots.txt文件?通过一种程序)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(什么是robots.txt文件?通过一种程序)

0 个评论

发起人

相关问题