搜索引擎禁止的方式优化网站(什么是robots.txt文件放在哪里？文件怎么处理)

优采云发布时间: 2021-11-25 17:15

　　一。什么是 robots.txt 文件？

　　搜索引擎使用程序机器人（也称为蜘蛛）来自动访问互联网上的网页并获取网页信息。

　　您可以在您的网站中创建一个纯文本文件robots.txt，并在该文件中声明您不想被机器人访问的网站部分。这样就可以将网站的部分或全部内容排除在搜索引擎收录之外，或者只能由收录指定搜索引擎。

　　二. robots.txt 文件在哪里？

　　robots.txt文件应该放在网站的根目录下。例如，当robots访问一个网站（例如）时，它会首先检查网站中是否存在该文件。如果机器人找到了这个文件，它会根据文件的内容确定其访问权限的范围。

　　网站 URL对应robots.txt URL：80/:80/robots.txt:1234/:1234/robots.txt

　　三. Robots.txt 文件格式

　　“robots.txt”文件收录一个或多个记录，由空行分隔（以CR、CR/NL或NL作为终止符）。每条记录的格式如下：

　　“：”。

　　可以在这个文件中使用#做注释，具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头，后跟几行 Disallow 行，详细信息如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，表示多个robots会被协议限制。对于这个文件，至少有一个 User-agent 记录。如果该项的值设置为*，则该协议对任何机器人都有效。在“robots.txt”文件中，只能有“User-agent:*”等一条记录。

　　不允许：

　　此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如，“禁止：/help”不允许搜索引擎访问/help.Html和/help/index.html，而“禁止：/help/”允许机器人访问/help.html但不允许访问/help/index . .html。

　　如果任何 Disallow 记录为空，则表示允许访问网站的所有部分。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件，这个网站对所有搜索引擎机器人都是开放的。

　　四. robots.txt 文件使用示例

　　示例 1. 禁止所有搜索引擎访问网站的任何部分

　　下载 robots.txt 文件

　　用户代理： *

　　不允许： /

　　示例 2. 允许所有机器人访问

　　（或者你可以创建一个空文件“/robots.txt”文件）

　　用户代理： *

　　不允许：

　　示例 3. 禁止访问某个搜索引擎

　　用户代理：BadBot

　　不允许： /

　　示例 4. 允许访问某个搜索引擎

　　用户代理：baiduspider

　　不允许：

　　用户代理： *

　　不允许： /

　　Example 5. 一个简单的例子

　　在这个例子中，网站有三个限制搜索引擎访问的目录，即搜索引擎不会访问这三个目录。

　　需要注意的是，每个目录必须单独声明，而不是“Disallow: /cgi-bin/ /tmp/”。

　　User-agent: 后面的 * 有特殊含义，代表“任何机器人”，因此“Disallow: /tmp/*”或“Disallow: *.gif”之类的记录不能出现在该文件中。

　　用户代理： *

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　五. robots.txt 文件参考

　　关于robots.txt文件更具体的设置，请参考以下链接：

　　· 机器人排除协议的 Web 服务器管理员指南

　　· 机器人排除协议的 HTML 作者指南

　　· 1994 年的原创协议描述，如当前部署

　　· 修订后的 Internet-Draft 规范，尚未完成或实施

　　总结：

　　看了这么多，有的朋友可能会很不耐烦。简单的说，robots.txt就是这样一个文件，他可以把爬虫关在门外，让某个页面不被索引。具体用法是不想被搜索引擎robots抓取。网页的网页目录下的文件被robots.txt保护的目录。添加Disallow:/（表示不允许）后跟这个目录，会给搜索引擎一个信号，这个目录下的所有网页都不允许被访问过。如果在目录后面加上“/”，表示不爬取该目录下的默认主页。一般默认主页是index.html、index.htm等。

0

2021-11-25

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(什么是robots.txt文件放在哪里？文件怎么处理)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(什么是robots.txt文件放在哪里？文件怎么处理)

0 个评论

发起人

相关问题