搜索引擎禁止的方式优化网站(禁止搜索引擎收录的方法和使用方法-苏州安嘉网络)

优采云 发布时间: 2021-09-08 02:25

  搜索引擎禁止的方式优化网站(禁止搜索引擎收录的方法和使用方法-苏州安嘉网络)

  如何禁止搜索引擎收录

  一个。 robots.txt 文件是什么?

  搜索引擎使用程序机器人(也称为蜘蛛)自动访问互联网上的网页并获取网页信息。

  你可以在你的网站中创建一个纯文本文件robots.txt,在这个文件中声明网站不想被robots访问的部分,这样网站的部分或者全部@内容是你不能再被收录搜索到,或者你只能指定收录指定的内容。

  二.robots.txt 文件在哪里?

  robots.txt 文件应该放在网站root 目录下。例如,当robots访问一个网站(例如)时,它会首先检查网站中是否存在该文件。如果机器人找到该文件,它会根据文件内容确定其访问权限。范围。

  网站URL 对应robots.txt URL

  :80/:80/robots.txt

  :1234/:1234/robots.txt

  三.robots.txt 文件格式

  “robots.txt”文件收录一条或多条记录,以空行分隔(以CR、CR/NL或NL为终止符),每条记录的格式如下:

  " ;:; ;;".

  在这个文件中,可以使用#进行标注,具体用法与UNIX中的约定相同。这个文件中的记录通常以一行或多行User-agent开头,后面跟着几行Disallow,具体如下:

  用户代理:

  此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被协议限制。对于这个文件,必须至少有一个 User-agent 记录。如果该项的值设置为*,则该协议对任何机器人都有效。 “robots.txt”文件中只能有“User-agent:*”等一条记录。

  禁止:

  此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html但不允许访问/help/index . .html。

  Any Disallow 记录为空,表示网站的所有部分都允许访问,并且“/robots.txt”文件中必须至少有一个Disallow记录。如果“/robots.txt”为空文件,则网站对所有搜索引擎机器人开放。

  四.robots.txt 文件使用示例

  例如1.禁止所有搜索引擎访问网站的任何部分

  下载robots.txt文件User-agent:*

  禁止:/

  示例2.允许所有机器人访问

  (或者你可以创建一个空文件“/robots.txt”文件)

  用户代理:*

  禁止:

  例如3.禁止访问某个搜索引擎

  用户代理:BadBot

  禁止:/

  Example4.允许搜索引擎访问User-agent:baiduspider

  禁止:

  用户代理:*

  禁止:/

  Example5.一个简单的例子

  本例中网站有三个限制搜索引擎访问的目录,即搜索引擎不会访问这三个目录。

  需要注意的是,每个目录必须单独声明,不能写成“Disallow:/cgi-bin//tmp/”。

  User-agent:后面的*有特殊含义,代表“anyrobot”,所以这个文件中不能有“Disallow:/tmp/*”或“Disallow:*.gif”这样的记录。

  用户代理:*

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/~joe/

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线