php禁止网页抓取(robots协议Robots协议(也称为爬虫协议、机器人协议等))
优采云 发布时间: 2021-12-01 19:20php禁止网页抓取(robots协议Robots协议(也称为爬虫协议、机器人协议等))
机器人协议
Robots协议(也叫爬虫协议、机器人协议等)的全称是“Robots Exclusion Protocol”。网站通过Robots协议告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取。
机器人.txt
1. 什么是robots.txt?
搜索蜘蛛访问站点时,首先会检查站点根目录下是否存在robots.txt。如果存在,搜索机器人会根据文件内容确定访问范围;如果该文件不存在,所有 'S 搜索蜘蛛将能够访问 网站 上所有不受密码保护的页面。从表面上看,这个功能是有限的。从搜索引擎优化的角度来看,集中权重的效果可以通过拦截页面来实现,这也是优化者最重要的地方。
这个文件必须放在网站的根目录下,并且有字母大小限制,文件名必须是小写字母。所有命令的第一个字母必须大写,其余的必须小写。并且命令后必须有一个英文字符空格。
2.网站设置robots.txt的几个原因
1)设置访问权限以保护网站安全。
2) 禁止搜索引擎抓取无效页面,权重集中在主页面。
3.如何编写标准语法的robots.txt协议?
有几个概念需要掌握。
User-agent表示定义的是哪个搜索引擎,比如User-agent:Baiduspider,定义了百度蜘蛛。
Disallow 表示禁止访问。
允许意味着运行访问。
通过以上三个命令,你可以组合出多种写法,允许哪个搜索引擎访问或者禁止哪个页面。
1) 允许所有搜索引擎访问网站的所有部分
Robots.txt 的写法如下:
用户代理: *
不允许:
或者
用户代理: *
允许: /
注意:第一个英文必须大写。当冒号是英文时,冒号后面有一个空格。这几点不能错。
2)禁止所有搜索引擎访问网站的所有部分
Robots.txt 的写法如下:
用户代理: *
不允许: /
3)允许或禁止访问搜索引擎
禁止访问搜索引擎,例如禁止访问谷歌搜索引擎
用户代理:Googlebot
不允许: /
允许访问某个搜索引擎,例如允许访问百度搜索引擎
用户代理:百度蜘蛛
允许: /
4) 你只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
Robots.txt 的写法如下:
用户代理: *
禁止:/css/
禁止:/管理员/
禁止:/图像/
注意:路径后面有斜线和不带斜线的区别:比如Disallow:/images/带斜线是禁止抓取整个文件夹的图片,Disallow:/images不带斜线表示有/images路径@> 中的关键词将被阻止。
5) 阻止文件夹 /templets,但可以抓取其中一个文件:/templets/main
Robots.txt 的写法如下:
用户代理: *
禁止:/templets
允许:/main
6) 禁止访问/html/目录(包括子目录)中所有后缀为“.php”的URL
Robots.txt 的写法如下:
用户代理: *
禁止:/html/*.php
7) 只允许访问某个目录下有某个后缀的文件,使用“$”
Robots.txt 的写法如下:
用户代理: *
允许:.html$
不允许: /
8)禁止索引网站中的所有动态页面
例如,带有“?”的域名 这里被限制了,比如index.php?id=1
Robots.txt 的写法如下:
用户代理: *
不允许: /*?*
9)禁止搜索引擎抓取我们网站上的所有图片(如果您的网站使用了其他后缀的图片名称,您也可以在这里直接添加)
有时,为了节省服务器资源,我们需要禁止各种搜索引擎在网站上索引我们的图片。这里的方法除了使用“Disallow:/images/”直接屏蔽文件夹之外。也可以直接屏蔽图片后缀名。
Robots.txt 的写法如下:
用户代理: *
禁止:.jpg$
禁止:.jpeg$
禁止:.gif$
禁止:.png$
禁止:.bmp$
SEO(搜索引擎优化)
4. 写robots.txt要注意什么
1) 第一个英文要大写。当冒号是英文时,冒号后面有一个空格。这几点不能错。
2)斜线:/代表整个网站
3) 如果“/”后面有多余的空格,整个网站都会被阻塞
4)不要禁止正常内容
5) 生效时间是几天到两个月
5. 我什么时候需要使用这个协议?
1)无用页面,很多网站都有联系我们、用户协议等页面。这些页面在搜索引擎优化方面影响不大。这时候就需要使用Disallow命令来禁止这些页面被搜索引擎搜索。抓住。
2)动态页面,企业类站点屏蔽动态页面,有利于网站安全。并且如果多个URL访问同一个页面,权重就会分散。因此,一般情况下,阻塞动态页面并保留静态或伪静态页面。
3) 网站后台页面,网站后台页面也可以归为无用页面。禁止收录百利而无一害。
在这种情况下,有一条灰线表示 robots.txt 正在运行。只是收录网站的地址栏:
Robots.txt 设置禁止搜索引擎访问指令