搜索引擎禁止的方式优化网站(robots.txt的应用方法以及应用的方法)
优采云 发布时间: 2022-03-26 11:13搜索引擎禁止的方式优化网站(robots.txt的应用方法以及应用的方法)
一、robots.txt
1、什么是 robots.txt?
robots.txt是纯文本文件,通过在该文件中声明网站中机器人不想访问的部分,使得网站的部分或全部内容不能被访问由搜索引擎搜索收录,或者指定搜索引擎只收录指定内容。
搜索机器人访问站点时,首先会检查站点根目录下是否存在robots.txt。如果找到,搜索机器人会根据文件中的内容确定访问范围。存在,然后搜索机器人沿着链接爬行。
robots.txt 必须放在站点的根目录下,文件名必须全部小写。
网站网址
对应 robots.txt 的 URL
:80/
:80/机器人.txt
2、robots.txt 的语法
“robots.txt”文件收录一条或多条记录,以空行分隔(以CR、CR/NL或NL作为停止字符),在该文件中可以用#注释。具体应用方法与UNIX中相同。与一般情况相同。该文件中的记录通常以一行或多行 User-agent 开头,后面跟着几行 Disallow 行,如下:
用户代理:
该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录表明多个机器人会受到该协议的限制,对于这个文件,至少有一个User-agent记录。如果此项的值设置为*,则该协议对任何机器人都有效。在“robots.txt”文件中,只能有一条“User-agent: *”的记录。搜索引擎机器人名称请参考文章《搜索引擎蜘蛛程序名称》
不允许:
该项目的值用于描述一个不希望被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html但不允许/help/index .html。
任何 Disallow 条目为空,表示 网站 的所有部分都允许访问,并且“robots.txt”文件中必须至少有一个 Disallow 条目。如果“robots.txt”是一个空文件,则 网站 对所有搜索引擎机器人开放。
以下是 robots.txt 的一些基本用法:
阻止所有搜索引擎访问 网站 的任何部分:
用户代理: *
不允许: /
授予对所有机器人的访问权限
用户代理: *
不允许:
或者您可以创建一个空文件:robots.txt
阻止所有搜索引擎访问 网站 的几个部分(下例中的 cgi-bin、tmp、私有目录)
用户代理: *
禁止:/cgi-bin/
禁止:/tmp/
禁止:/private/
(以下示例中的 BadBot)
用户代理:BadBot
不允许: /
只允许从某个搜索引擎访问(下例中的 WebCrawler)
用户代理:WebCrawler
不允许:
3、常见的搜索引擎机器人名称
名称搜索引擎网址
作者推荐: