php禁止网页抓取(查看网站的robots文件方法:网站为什么要写robots?)

优采云 发布时间: 2021-10-23 01:04

  php禁止网页抓取(查看网站的robots文件方法:网站为什么要写robots?)

  robots 协议是网站 和搜索引擎之间的爬虫协议。也是蜘蛛访问的第一个文件网站。它的作用是指导搜索引擎蜘蛛根据文件内容确定访问权限。范围、保护网络安全和隐私,防止数据和敏感信息泄露,确保用户个人信息和隐私不受侵犯。没有robots协议,默认搜索引擎抓取网站的所有页面。

  

  如何查看网站的robots文件:

  网站为什么要写机器人?

  1、避免资源浪费:屏蔽不需要搜索引擎检索的页面和文件,节省搜索引擎蜘蛛资源。

  2、防止敏感信息泄露和网站隐私:主要是防止网站后台程序文件和前台模板文件被抓取。

  3、提高搜索引擎友好度:当抓取到更多无用信息时,搜索引擎会认为网站质量低,屏蔽死链接和无用页面,提高搜索引擎友好度

  机器人写法

  第一行通常是:User-agent:*(User-agent是搜索引擎,*是编程语言中的通配符。“User-agent:*”是所有搜索引擎,包括百度,谷歌,36 0、搜狗...)

  Disallow 表示不允许或禁止。这里的定义是禁止蜘蛛爬取(一个文件,一个目录...)

  例如:Disallow: /index.php 禁止 网站index.php 文件

  allow 表示允许,这里的定义是允许蜘蛛爬行

  例如:允许:/index.php允许网站

  的index.php

  语法规则:

  1、大写每一行的开头

  2、冒号“:”是英文格式的冒号

  3、冒号后面有一个空格

  4、空格后面必须有斜杠

  示例:禁止:/admin

  机器人常用语法和功能:

  1、用户代理:*

  禁止:/禁止所有搜索引擎访问网站的所有部分。

  2、Disallow: /admin/ 不允许抓取 admin 文件夹中的信息

  Disallow: /admin 不允许爬取所有带有 admin 的路径

  3、Disallow: /*?* 禁止访问 网站

  中的所有动态页面

  4、Disallow: /.css$ 不允许爬取路径中所有带有“.css”的路径($表示结束,停止)

  5、站点地图:

  Sitemap:(有点seo优化技巧,原理自己懂...)

  6、如果我们不允许蜘蛛爬取admin文件夹的内容,但允许爬取admin文件夹下的某个页面:

  禁止:/admin/

  允许:/admin/**

  机器人语法格式:

  1、User-agent: _____ 空格是定义搜索引擎的类型;

  2、Crawl-delay: _____ 空格是定义爬行延迟;

  3、Disallow:_____ 空格是定义禁止搜索引擎的地址收录;

  4、Allow:_____ 空格是定义允许搜索引擎的地址收录;

  示例:phpcms内容管理系统的robots.txt文件:

  User-agent: * 其中*代表所有类型的搜索引擎,*是通配符

  Disallow: /caches/ 禁止抓取缓存目录中的所有文件

  Disallow: /phpcms/ 禁止爬取php核心目录下的目录cms

  Disallow: /install/ 禁止访问安装包目录下的目录

  Disallow: /phpsso_server/ 禁止爬取phpsso_server目录下的目录

  Disallow: /api/ 禁止爬取界面目录下的目录

  Disallow: /admin.php/ 这里的定义是禁止蜘蛛爬取admin目录下的目录

  机器人测试

  在百度站长工具中添加网站,使用左侧爬虫的权限测试网站的robots。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线