搜索引擎禁止的方式优化网站(2018年8月22日来源:好排名网站的robots.txt文件设置是不是合理)
优采云 发布时间: 2022-04-04 07:07搜索引擎禁止的方式优化网站(2018年8月22日来源:好排名网站的robots.txt文件设置是不是合理)
Robots.txt 协议编写和屏蔽文件 2018 年 8 月 22 日 来源:Good Ranking
网站的robots.txt文件设置是否合理,哪些文件或目录需要屏蔽,哪些设置方式有利于网站的运行?有人复制相同的内容来应对不同搜索引擎的排名规则。但是,一旦搜索引擎在网站上发现大量“克隆”页面,他们就会因为没有收录这些重复页面而对其进行处罚。
另一方面,我们的 网站 的内容是个人隐私文件,我们不希望将其暴露给搜索引擎。这时候robot.txt就是解决这两个问题的。
一、什么是 robots.txt?
robots.txt 是 网站 和搜索引擎协议的纯文本文件。当搜索引擎蜘蛛来访问一个站点时,它首先会爬取该站点的根目录中是否存在 robots.txt,
如果存在,则根据文件内容确定访问范围。如果没有,蜘蛛就会沿着链接爬行。robots.txt 放在项目的根目录下。
二、 robots.txt 基本语法:
1) ,允许所有搜索引擎访问 网站 的所有部分
robots.txt 的写法如下:
用户代理: *
不允许:
要么
用户代理: *
允许: /
注意:1.英文首字母大写,冒号为英文。冒号后面有一个空格。这些点一定没有错。
2) ,阻止所有搜索引擎访问 网站 的所有部分
robots.txt 的写法如下:
用户代理: *
不允许: /
3) ,只需要禁止spider访问某个目录即可,比如禁止admin、css、images等目录被索引
robots.txt 的写法如下:
用户代理: *
禁止:/css/
禁止:/admin/
禁止:/图像/
<p>注意:路径后有斜线和不带斜线的区别:例如,带斜线的Disallow:/images/禁止抓取整个images文件夹,不带斜线的Disallow:/images表示任何带/images