搜索引擎禁止的方式优化网站(搜索引擎通过一种程序(又称spider),自动访问互联网)

优采云 发布时间: 2022-01-26 03:03

  搜索引擎禁止的方式优化网站(搜索引擎通过一种程序(又称spider),自动访问互联网)

  搜索引擎自动访问互联网上的网页,并通过程序机器人(也称为蜘蛛)获取网页信息。您可以在 网站 中创建一个纯文本文件 robots.txt,并在此文件中声明您不希望机器人访问的 网站 部分,以便 网站 或者整个内容可以从搜索引擎收录中排除,或者指定的搜索引擎只能收录指定内容。

  robots.txt 文件应该放在 网站 根目录下。比如robots访问一个网站时,首先会检查网站中是否存在robots.txt文件。如果机器人找到这个文件,就会根据这个文件的内容进行判断。其访问权限的范围。

  “robots.txt”文件收录一条或多条以空行分隔的记录(以CR、CR/NL或NL结尾),每条记录的格式如下:

  “:”

  #可用于该文件中的注释,具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow,具体如下:

  用户代理:

  此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个robots会受到该协议的限制。 ,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则协议对任何机器人都有效。在“robots.txt”文件中,只能有一条“User-agent: *”记录。

  禁止:

  该项的值用来描述一个不想被访问的URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如:

  "Disallow: /help" 不允许搜索引擎访问 /help.html 和 /help/index.html,而 "Disallow: /help/" 允许机器人访问 /help.html 但不允许 /help /index。 html.

  任何Disallow记录为空,表示网站的所有部分都被允许访问。 “/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎机器人开放。

  有人会问,既然robots文件没有做对错,会影响整个网站的收录,那我为什么需要这个文件呢?

  其实robots是为有特定需求的站长准备的,因为有些网站有些页面不想做SE收录,所以就有了这个robots文件。

  五、Robots.txt 文件使用示例

  示例1、禁止所有搜索引擎访问网站的任何部分

  用户代理:*

  不允许:/

  示例2、允许所有机器人访问

  用户代理:*

  禁止:

  (或者你可以创建一个空文件“/robots.txt”文件)

  示例3、禁用对搜索引擎的访问

  用户代理:BadBot

  不允许:/

  示例4、允许访问搜索引擎

  用户代理:baiduspider

  禁止:

  用户代理:*

  不允许:/

  例子5、一个简单的例子

  本例中,网站有三个目录限制搜索引擎的访问,即搜索引擎不会访问这三个目录。

  用户代理:*

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/joe/

  需要注意的是,每个目录都必须单独声明,而不是写成:“Disallow: /cgi-bin/ /tmp/”。

  User-agent:后面的*有特殊含义,代表“任意机器人”,因此该文件中不能有“Disallow:/tmp/*”或“Disallow: *.gif”之类的记录。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线