php禁止网页抓取(robots协议Robots协议（也称为爬虫协议、机器人协议等）)

优采云发布时间: 2021-12-01 19:20

　　机器人协议

　　Robots协议（也叫爬虫协议、机器人协议等）的全称是“Robots Exclusion Protocol”。网站通过Robots协议告诉搜索引擎哪些页面可以爬取，哪些页面不能爬取。

　　机器人.txt

　　1. 什么是robots.txt？

　　搜索蜘蛛访问站点时，首先会检查站点根目录下是否存在robots.txt。如果存在，搜索机器人会根据文件内容确定访问范围；如果该文件不存在，所有 'S 搜索蜘蛛将能够访问网站上所有不受密码保护的页面。从表面上看，这个功能是有限的。从搜索引擎优化的角度来看，集中权重的效果可以通过拦截页面来实现，这也是优化者最重要的地方。

　　这个文件必须放在网站的根目录下，并且有字母大小限制，文件名必须是小写字母。所有命令的第一个字母必须大写，其余的必须小写。并且命令后必须有一个英文字符空格。

　　2.网站设置robots.txt的几个原因

　　1)设置访问权限以保护网站安全。

　　2) 禁止搜索引擎抓取无效页面，权重集中在主页面。

　　3.如何编写标准语法的robots.txt协议？

　　有几个概念需要掌握。

　　User-agent表示定义的是哪个搜索引擎，比如User-agent：Baiduspider，定义了百度蜘蛛。

　　Disallow 表示禁止访问。

　　允许意味着运行访问。

　　通过以上三个命令，你可以组合出多种写法，允许哪个搜索引擎访问或者禁止哪个页面。

　　1) 允许所有搜索引擎访问网站的所有部分

　　Robots.txt 的写法如下：

　　用户代理： *

　　不允许：

　　或者

　　用户代理： *

　　允许： /

　　注意：第一个英文必须大写。当冒号是英文时，冒号后面有一个空格。这几点不能错。

　　2)禁止所有搜索引擎访问网站的所有部分

　　Robots.txt 的写法如下：

　　用户代理： *

　　不允许： /

　　3)允许或禁止访问搜索引擎

　　禁止访问搜索引擎，例如禁止访问谷歌搜索引擎

　　用户代理：Googlebot

　　不允许： /

　　允许访问某个搜索引擎，例如允许访问百度搜索引擎

　　用户代理：百度蜘蛛

　　允许： /

　　4) 你只需要禁止蜘蛛访问某个目录，比如禁止admin、css、images等目录被索引

　　Robots.txt 的写法如下：

　　用户代理： *

　　禁止：/css/

　　禁止：/管理员/

　　禁止：/图像/

　　注意：路径后面有斜线和不带斜线的区别：比如Disallow:/images/带斜线是禁止抓取整个文件夹的图片，Disallow:/images不带斜线表示有/images路径@> 中的关键词将被阻止。

　　5) 阻止文件夹 /templets，但可以抓取其中一个文件：/templets/main

　　Robots.txt 的写法如下：

　　用户代理： *

　　禁止：/templets

　　允许：/main

　　6) 禁止访问/html/目录（包括子目录）中所有后缀为“.php”的URL

　　Robots.txt 的写法如下：

　　用户代理： *

　　禁止：/html/*.php

　　7) 只允许访问某个目录下有某个后缀的文件，使用“$”

　　Robots.txt 的写法如下：

　　用户代理： *

　　允许：.html$

　　不允许： /

　　8)禁止索引网站中的所有动态页面

　　例如，带有“？”的域名这里被限制了，比如index.php?id=1

　　Robots.txt 的写法如下：

　　用户代理： *

　　不允许： /*？*

　　9)禁止搜索引擎抓取我们网站上的所有图片（如果您的网站使用了其他后缀的图片名称，您也可以在这里直接添加）

　　有时，为了节省服务器资源，我们需要禁止各种搜索引擎在网站上索引我们的图片。这里的方法除了使用“Disallow:/images/”直接屏蔽文件夹之外。也可以直接屏蔽图片后缀名。

　　Robots.txt 的写法如下：

　　用户代理： *

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.gif$

　　禁止：.png$

　　禁止：.bmp$

　　SEO（搜索引擎优化）

　　4. 写robots.txt要注意什么

　　1) 第一个英文要大写。当冒号是英文时，冒号后面有一个空格。这几点不能错。

　　2)斜线：/代表整个网站

　　3) 如果“/”后面有多余的空格，整个网站都会被阻塞

　　4)不要禁止正常内容

　　5) 生效时间是几天到两个月

　　5. 我什么时候需要使用这个协议？

　　1)无用页面，很多网站都有联系我们、用户协议等页面。这些页面在搜索引擎优化方面影响不大。这时候就需要使用Disallow命令来禁止这些页面被搜索引擎搜索。抓住。

　　2)动态页面，企业类站点屏蔽动态页面，有利于网站安全。并且如果多个URL访问同一个页面，权重就会分散。因此，一般情况下，阻塞动态页面并保留静态或伪静态页面。

　　3) 网站后台页面，网站后台页面也可以归为无用页面。禁止收录百利而无一害。

　　在这种情况下，有一条灰线表示 robots.txt 正在运行。只是收录网站的地址栏：

　　Robots.txt 设置禁止搜索引擎访问指令

0

2021-12-01

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(robots协议Robots协议（也称为爬虫协议、机器人协议等）)

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(robots协议Robots协议（也称为爬虫协议、机器人协议等）)

0 个评论

发起人

相关问题