搜索引擎禁止的方式优化网站(robots.txt的应用方法以及应用的方法)

优采云发布时间: 2022-03-26 11:13

　　一、robots.txt

　　1、什么是 robots.txt？

　　robots.txt是纯文本文件，通过在该文件中声明网站中机器人不想访问的部分，使得网站的部分或全部内容不能被访问由搜索引擎搜索收录，或者指定搜索引擎只收录指定内容。

　　搜索机器人访问站点时，首先会检查站点根目录下是否存在robots.txt。如果找到，搜索机器人会根据文件中的内容确定访问范围。存在，然后搜索机器人沿着链接爬行。

　　robots.txt 必须放在站点的根目录下，文件名必须全部小写。

　　网站网址

　　对应 robots.txt 的 URL

　　:80/

　　:80/机器人.txt

　　2、robots.txt 的语法

　　“robots.txt”文件收录一条或多条记录，以空行分隔（以CR、CR/NL或NL作为停止字符），在该文件中可以用#注释。具体应用方法与UNIX中相同。与一般情况相同。该文件中的记录通常以一行或多行 User-agent 开头，后面跟着几行 Disallow 行，如下：

　　用户代理：

　　该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录表明多个机器人会受到该协议的限制，对于这个文件，至少有一个User-agent记录。如果此项的值设置为*，则该协议对任何机器人都有效。在“robots.txt”文件中，只能有一条“User-agent: *”的记录。搜索引擎机器人名称请参考文章《搜索引擎蜘蛛程序名称》

　　不允许：

　　该项目的值用于描述一个不希望被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如，“Disallow:/help”不允许搜索引擎访问/help.html和/help/index.html，而“Disallow:/help/”允许机器人访问/help.html但不允许/help/index .html。

　　任何 Disallow 条目为空，表示网站的所有部分都允许访问，并且“robots.txt”文件中必须至少有一个 Disallow 条目。如果“robots.txt”是一个空文件，则网站对所有搜索引擎机器人开放。

　　以下是 robots.txt 的一些基本用法：

　　阻止所有搜索引擎访问网站的任何部分：

　　用户代理： *

　　不允许： /

　　授予对所有机器人的访问权限

　　用户代理： *

　　不允许：

　　或者您可以创建一个空文件：robots.txt

　　阻止所有搜索引擎访问网站的几个部分（下例中的 cgi-bin、tmp、私有目录）

　　用户代理： *

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/private/

　　（以下示例中的 BadBot）

　　用户代理：BadBot

　　不允许： /

　　只允许从某个搜索引擎访问（下例中的 WebCrawler）

　　用户代理：WebCrawler

　　不允许：

　　3、常见的搜索引擎机器人名称

　　名称搜索引擎网址

　　作者推荐：

0

2022-03-26

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(robots.txt的应用方法以及应用的方法)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(robots.txt的应用方法以及应用的方法)

0 个评论

发起人

相关问题