搜索引擎禁止的方式优化网站(什么是robots.txt文件?通过一种程序)

优采云 发布时间: 2021-09-30 10:03

  搜索引擎禁止的方式优化网站(什么是robots.txt文件?通过一种程序)

  robots.txt文件是什么

  搜索引擎自动访问互联网上的网页,并通过程序机器人(也称为蜘蛛)获取网页信息

  您可以在网站中创建一个纯文本文件robots.txt,并在此文件中声明网站中您不希望机器人访问的部分。这样,搜索引擎收录无法访问网站的部分或全部内容,或指定搜索引擎仅指定收录指定的内容

  robots.txt文件在哪里

  robots.txt文件应放在网站根目录中。例如,当机器人访问一个网站(例如),他们将首先检查文件是否存在于网站。如果robot找到文件,它将根据文件的内容确定其访问权限的范围

  网站URL

  相应robots.txt的URL

  :80/

  :80/robots.txt

  :1234/

  :1234/robots.txt

  robots.txt文件的格式

  “robots.TXT”文件收录一个或多个由空行分隔的记录(使用Cr、Cr/NL或NL作为终止符)。每条记录的格式如下:

  “:”

  在此文件中,可以使用#进行注释。具体方法与UNIX中的约定相同。此文件中的记录通常以用户代理的一行或多行开始,然后是几个不允许的行。详情如下:

  用户代理:

  此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中,如果存在多个用户代理记录,则表示多个机器人将受到协议的限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则协议对任何机器人都有效。在“robots.TXT”文件中,只能有一条记录,如“user agent:*”

  禁止:

  此项的值用于描述不希望访问的URL。此URL可以是完整路径或部分路径。机器人不会访问任何以“禁止”开头的URL。例如,“disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“disallow:/help/”允许机器人访问/help.html,但不允许访问/help/index.html。如果任何不允许的记录为空,则允许访问网站的所有部分。“/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”是空文件,网站对所有搜索引擎robots打开

  robots.txt文件使用示例

  例如,1.所有搜索引擎都被禁止访问网站

  下载robots.txt文件

  用户代理:*

  禁止:/

  例如,2.允许所有机器人访问(或创建一个空文件“/robots.TXT”文件)

  用户代理:*

  禁止:

  示例3.禁止访问搜索引擎

  用户代理:BadBot

  禁止:/

  示例4.允许访问搜索引擎

  用户代理:baiduspider

  禁止:

  用户代理:*

  禁止:/

  示例5.一个简单的示例

  在本例中,网站有三个目录限制搜索引擎的访问,即搜索引擎不会访问这三个目录

  应该注意的是,每个目录必须单独声明,而不是写为“不允许:/CGI-bin//TMP/”

  *after user agent:具有特殊含义,表示“任何机器人”,因此“disallow:/TMP/*”或“disallow:.GIF”等记录不能出现在此文件中

  用户代理:*

  不允许:/cgi-bin/

  不允许:/tmp/

  不允许:/~乔/

  Robots.txt文件参考

  有关robots.txt文件的更多具体设置,请参阅以下链接:

  ·机器人排除协议Web服务器管理员指南

  ·机器人排除协议HTML作者指南

  ·最初的1994年议定书说明,目前已部署

  ·修订后的互联网规范草案,尚未完成或实施

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线