php禁止网页抓取(查看网站的robots文件方法:网站为什么要写robots?)
优采云 发布时间: 2021-10-23 01:04php禁止网页抓取(查看网站的robots文件方法:网站为什么要写robots?)
robots 协议是网站 和搜索引擎之间的爬虫协议。也是蜘蛛访问的第一个文件网站。它的作用是指导搜索引擎蜘蛛根据文件内容确定访问权限。范围、保护网络安全和隐私,防止数据和敏感信息泄露,确保用户个人信息和隐私不受侵犯。没有robots协议,默认搜索引擎抓取网站的所有页面。
如何查看网站的robots文件:
网站为什么要写机器人?
1、避免资源浪费:屏蔽不需要搜索引擎检索的页面和文件,节省搜索引擎蜘蛛资源。
2、防止敏感信息泄露和网站隐私:主要是防止网站后台程序文件和前台模板文件被抓取。
3、提高搜索引擎友好度:当抓取到更多无用信息时,搜索引擎会认为网站质量低,屏蔽死链接和无用页面,提高搜索引擎友好度
机器人写法
第一行通常是:User-agent:*(User-agent是搜索引擎,*是编程语言中的通配符。“User-agent:*”是所有搜索引擎,包括百度,谷歌,36 0、搜狗...)
Disallow 表示不允许或禁止。这里的定义是禁止蜘蛛爬取(一个文件,一个目录...)
例如:Disallow: /index.php 禁止 网站index.php 文件
allow 表示允许,这里的定义是允许蜘蛛爬行
例如:允许:/index.php允许网站
的index.php
语法规则:
1、大写每一行的开头
2、冒号“:”是英文格式的冒号
3、冒号后面有一个空格
4、空格后面必须有斜杠
示例:禁止:/admin
机器人常用语法和功能:
1、用户代理:*
禁止:/禁止所有搜索引擎访问网站的所有部分。
2、Disallow: /admin/ 不允许抓取 admin 文件夹中的信息
Disallow: /admin 不允许爬取所有带有 admin 的路径
3、Disallow: /*?* 禁止访问 网站
中的所有动态页面
4、Disallow: /.css$ 不允许爬取路径中所有带有“.css”的路径($表示结束,停止)
5、站点地图:
Sitemap:(有点seo优化技巧,原理自己懂...)
6、如果我们不允许蜘蛛爬取admin文件夹的内容,但允许爬取admin文件夹下的某个页面:
禁止:/admin/
允许:/admin/**
机器人语法格式:
1、User-agent: _____ 空格是定义搜索引擎的类型;
2、Crawl-delay: _____ 空格是定义爬行延迟;
3、Disallow:_____ 空格是定义禁止搜索引擎的地址收录;
4、Allow:_____ 空格是定义允许搜索引擎的地址收录;
示例:phpcms内容管理系统的robots.txt文件:
User-agent: * 其中*代表所有类型的搜索引擎,*是通配符
Disallow: /caches/ 禁止抓取缓存目录中的所有文件
Disallow: /phpcms/ 禁止爬取php核心目录下的目录cms
Disallow: /install/ 禁止访问安装包目录下的目录
Disallow: /phpsso_server/ 禁止爬取phpsso_server目录下的目录
Disallow: /api/ 禁止爬取界面目录下的目录
Disallow: /admin.php/ 这里的定义是禁止蜘蛛爬取admin目录下的目录
机器人测试
在百度站长工具中添加网站,使用左侧爬虫的权限测试网站的robots。