搜索引擎禁止的方式优化网站(什么是robots.txt文件放在哪里?文件怎么处理)

优采云 发布时间: 2021-11-25 17:15

  搜索引擎禁止的方式优化网站(什么是robots.txt文件放在哪里?文件怎么处理)

  一。什么是 robots.txt 文件?

  搜索引擎使用程序机器人(也称为蜘蛛)来自动访问互联网上的网页并获取网页信息。

  您可以在您的网站中创建一个纯文本文件robots.txt,并在该文件中声明您不想被机器人访问的网站部分。这样就可以将网站的部分或全部内容排除在搜索引擎收录之外,或者只能由收录指定搜索引擎。

  二. robots.txt 文件在哪里?

  robots.txt文件应该放在网站的根目录下。例如,当robots访问一个网站(例如)时,它会首先检查网站中是否存在该文件。如果机器人找到了这个文件,它会根据文件的内容确定其访问权限的范围。

  网站 URL对应robots.txt URL:80/:80/robots.txt:1234/:1234/robots.txt

  三. Robots.txt 文件格式

  “robots.txt”文件收录一个或多个记录,由空行分隔(以CR、CR/NL或NL作为终止符)。每条记录的格式如下:

  “:”。

  可以在这个文件中使用#做注释,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 行,详细信息如下:

  用户代理:

  此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被协议限制。对于这个文件,至少有一个 User-agent 记录。如果该项的值设置为*,则该协议对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”等一条记录。

  不允许:

  此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“禁止:/help”不允许搜索引擎访问/help.Html和/help/index.html,而“禁止:/help/”允许机器人访问/help.html但不允许访问/help/index . .html。

  如果任何 Disallow 记录为空,则表示允许访问 网站 的所有部分。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件,这个网站 对所有搜索引擎机器人都是开放的。

  四. robots.txt 文件使用示例

  示例 1. 禁止所有搜索引擎访问 网站 的任何部分

  下载 robots.txt 文件

  用户代理: *

  不允许: /

  示例 2. 允许所有机器人访问

  (或者你可以创建一个空文件“/robots.txt”文件)

  用户代理: *

  不允许:

  示例 3. 禁止访问某个搜索引擎

  用户代理:BadBot

  不允许: /

  示例 4. 允许访问某个搜索引擎

  用户代理:baiduspider

  不允许:

  用户代理: *

  不允许: /

  Example 5. 一个简单的例子

  在这个例子中,网站有三个限制搜索引擎访问的目录,即搜索引擎不会访问这三个目录。

  需要注意的是,每个目录必须单独声明,而不是“Disallow: /cgi-bin/ /tmp/”。

  User-agent: 后面的 * 有特殊含义,代表“任何机器人”,因此“Disallow: /tmp/*”或“Disallow: *.gif”之类的记录不能出现在该文件中。

  用户代理: *

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/~joe/

  五. robots.txt 文件参考

  关于robots.txt文件更具体的设置,请参考以下链接:

  · 机器人排除协议的 Web 服务器管理员指南

  · 机器人排除协议的 HTML 作者指南

  · 1994 年的原创协议描述,如当前部署

  · 修订后的 Internet-Draft 规范,尚未完成或实施

  总结:

  看了这么多,有的朋友可能会很不耐烦。简单的说,robots.txt就是这样一个文件,他可以把爬虫关在门外,让某个页面不被索引。具体用法是不想被搜索引擎robots抓取。网页的网页目录下的文件被robots.txt保护的目录。添加Disallow:/(表示不允许)后跟这个目录,会给搜索引擎一个信号,这个目录下的所有网页都不允许被访问过。如果在目录后面加上“/”,表示不爬取该目录下的默认主页。一般默认主页是index.html、index.htm等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线