搜索引擎禁止的方式优化网站(robots.txt的应用方法以及应用的方法)

优采云 发布时间: 2022-03-26 11:13

  搜索引擎禁止的方式优化网站(robots.txt的应用方法以及应用的方法)

  一、robots.txt

  1、什么是 robots.txt?

  robots.txt是纯文本文件,通过在该文件中声明网站中机器人不想访问的部分,使得网站的部分或全部内容不能被访问由搜索引擎搜索收录,或者指定搜索引擎只收录指定内容。

  搜索机器人访问站点时,首先会检查站点根目录下是否存在robots.txt。如果找到,搜索机器人会根据文件中的内容确定访问范围。存在,然后搜索机器人沿着链接爬行。

  robots.txt 必须放在站点的根目录下,文件名必须全部小写。

  网站网址

  对应 robots.txt 的 URL

  :80/

  :80/机器人.txt

  2、robots.txt 的语法

  “robots.txt”文件收录一条或多条记录,以空行分隔(以CR、CR/NL或NL作为停止字符),在该文件中可以用#注释。具体应用方法与UNIX中相同。与一般情况相同。该文件中的记录通常以一行或多行 User-agent 开头,后面跟着几行 Disallow 行,如下:

  用户代理:

  该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录表明多个机器人会受到该协议的限制,对于这个文件,至少有一个User-agent记录。如果此项的值设置为*,则该协议对任何机器人都有效。在“robots.txt”文件中,只能有一条“User-agent: *”的记录。搜索引擎机器人名称请参考文章《搜索引擎蜘蛛程序名称》

  不允许:

  该项目的值用于描述一个不希望被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html但不允许/help/index .html。

  任何 Disallow 条目为空,表示 网站 的所有部分都允许访问,并且“robots.txt”文件中必须至少有一个 Disallow 条目。如果“robots.txt”是一个空文件,则 网站 对所有搜索引擎机器人开放。

  以下是 robots.txt 的一些基本用法:

  阻止所有搜索引擎访问 网站 的任何部分:

  用户代理: *

  不允许: /

  授予对所有机器人的访问权限

  用户代理: *

  不允许:

  或者您可以创建一个空文件:robots.txt

  阻止所有搜索引擎访问 网站 的几个部分(下例中的 cgi-bin、tmp、私有目录)

  用户代理: *

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/private/

  (以下示例中的 BadBot)

  用户代理:BadBot

  不允许: /

  只允许从某个搜索引擎访问(下例中的 WebCrawler)

  用户代理:WebCrawler

  不允许:

  3、常见的搜索引擎机器人名称

  名称搜索引擎网址

  作者推荐:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线