搜索引擎禁止的方式优化网站(什么是robots.txt文件?通过一种程序)
优采云 发布时间: 2021-09-30 10:03搜索引擎禁止的方式优化网站(什么是robots.txt文件?通过一种程序)
robots.txt文件是什么
搜索引擎自动访问互联网上的网页,并通过程序机器人(也称为蜘蛛)获取网页信息
您可以在网站中创建一个纯文本文件robots.txt,并在此文件中声明网站中您不希望机器人访问的部分。这样,搜索引擎收录无法访问网站的部分或全部内容,或指定搜索引擎仅指定收录指定的内容
robots.txt文件在哪里
robots.txt文件应放在网站根目录中。例如,当机器人访问一个网站(例如),他们将首先检查文件是否存在于网站。如果robot找到文件,它将根据文件的内容确定其访问权限的范围
网站URL
相应robots.txt的URL
:80/
:80/robots.txt
:1234/
:1234/robots.txt
robots.txt文件的格式
“robots.TXT”文件收录一个或多个由空行分隔的记录(使用Cr、Cr/NL或NL作为终止符)。每条记录的格式如下:
“:”
在此文件中,可以使用#进行注释。具体方法与UNIX中的约定相同。此文件中的记录通常以用户代理的一行或多行开始,然后是几个不允许的行。详情如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中,如果存在多个用户代理记录,则表示多个机器人将受到协议的限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则协议对任何机器人都有效。在“robots.TXT”文件中,只能有一条记录,如“user agent:*”
禁止:
此项的值用于描述不希望访问的URL。此URL可以是完整路径或部分路径。机器人不会访问任何以“禁止”开头的URL。例如,“disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“disallow:/help/”允许机器人访问/help.html,但不允许访问/help/index.html。如果任何不允许的记录为空,则允许访问网站的所有部分。“/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”是空文件,网站对所有搜索引擎robots打开
robots.txt文件使用示例
例如,1.所有搜索引擎都被禁止访问网站
下载robots.txt文件
用户代理:*
禁止:/
例如,2.允许所有机器人访问(或创建一个空文件“/robots.TXT”文件)
用户代理:*
禁止:
示例3.禁止访问搜索引擎
用户代理:BadBot
禁止:/
示例4.允许访问搜索引擎
用户代理:baiduspider
禁止:
用户代理:*
禁止:/
示例5.一个简单的示例
在本例中,网站有三个目录限制搜索引擎的访问,即搜索引擎不会访问这三个目录
应该注意的是,每个目录必须单独声明,而不是写为“不允许:/CGI-bin//TMP/”
*after user agent:具有特殊含义,表示“任何机器人”,因此“disallow:/TMP/*”或“disallow:.GIF”等记录不能出现在此文件中
用户代理:*
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~乔/
Robots.txt文件参考
有关robots.txt文件的更多具体设置,请参阅以下链接:
·机器人排除协议Web服务器管理员指南
·机器人排除协议HTML作者指南
·最初的1994年议定书说明,目前已部署
·修订后的互联网规范草案,尚未完成或实施