php禁止网页抓取(查看网站的robots文件方法：网站为什么要写robots?)

优采云发布时间: 2021-10-23 01:04

　　robots 协议是网站和搜索引擎之间的爬虫协议。也是蜘蛛访问的第一个文件网站。它的作用是指导搜索引擎蜘蛛根据文件内容确定访问权限。范围、保护网络安全和隐私，防止数据和敏感信息泄露，确保用户个人信息和隐私不受侵犯。没有robots协议，默认搜索引擎抓取网站的所有页面。

　　如何查看网站的robots文件：

　　网站为什么要写机器人？

　　1、避免资源浪费：屏蔽不需要搜索引擎检索的页面和文件，节省搜索引擎蜘蛛资源。

　　2、防止敏感信息泄露和网站隐私：主要是防止网站后台程序文件和前台模板文件被抓取。

　　3、提高搜索引擎友好度：当抓取到更多无用信息时，搜索引擎会认为网站质量低，屏蔽死链接和无用页面，提高搜索引擎友好度

　　机器人写法

　　第一行通常是：User-agent:*（User-agent是搜索引擎，*是编程语言中的通配符。“User-agent:*”是所有搜索引擎，包括百度，谷歌，36 0、搜狗...)

　　Disallow 表示不允许或禁止。这里的定义是禁止蜘蛛爬取（一个文件，一个目录...）

　　例如：Disallow: /index.php 禁止网站index.php 文件

　　allow 表示允许，这里的定义是允许蜘蛛爬行

　　例如：允许：/index.php允许网站

　　的index.php

　　语法规则：

　　1、大写每一行的开头

　　2、冒号“:”是英文格式的冒号

　　3、冒号后面有一个空格

　　4、空格后面必须有斜杠

　　示例：禁止：/admin

　　机器人常用语法和功能：

　　1、用户代理：*

　　禁止：/禁止所有搜索引擎访问网站的所有部分。

　　2、Disallow: /admin/ 不允许抓取 admin 文件夹中的信息

　　Disallow: /admin 不允许爬取所有带有 admin 的路径

　　3、Disallow: /*?* 禁止访问网站

　　中的所有动态页面

　　4、Disallow: /.css$ 不允许爬取路径中所有带有“.css”的路径（$表示结束，停止）

　　5、站点地图：

　　Sitemap：（有点seo优化技巧，原理自己懂...）

　　6、如果我们不允许蜘蛛爬取admin文件夹的内容，但允许爬取admin文件夹下的某个页面：

　　禁止：/admin/

　　允许：/admin/**

　　机器人语法格式：

　　1、User-agent: _____ 空格是定义搜索引擎的类型；

　　2、Crawl-delay: _____ 空格是定义爬行延迟；

　　3、Disallow:_____ 空格是定义禁止搜索引擎的地址收录;

　　4、Allow:_____ 空格是定义允许搜索引擎的地址收录;

　　示例：phpcms内容管理系统的robots.txt文件：

　　User-agent: * 其中*代表所有类型的搜索引擎，*是通配符

　　Disallow: /caches/ 禁止抓取缓存目录中的所有文件

　　Disallow: /phpcms/ 禁止爬取php核心目录下的目录cms

　　Disallow: /install/ 禁止访问安装包目录下的目录

　　Disallow: /phpsso_server/ 禁止爬取phpsso_server目录下的目录

　　Disallow: /api/ 禁止爬取界面目录下的目录

　　Disallow: /admin.php/ 这里的定义是禁止蜘蛛爬取admin目录下的目录

　　机器人测试

　　在百度站长工具中添加网站，使用左侧爬虫的权限测试网站的robots。

0

2021-10-23

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(查看网站的robots文件方法：网站为什么要写robots?)

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(查看网站的robots文件方法：网站为什么要写robots?)

0 个评论

发起人

相关问题