php禁止网页抓取(robots协议Robots协议(也称为爬虫协议、机器人协议等))

优采云 发布时间: 2021-12-01 19:20

  php禁止网页抓取(robots协议Robots协议(也称为爬虫协议、机器人协议等))

  机器人协议

  Robots协议(也叫爬虫协议、机器人协议等)的全称是“Robots Exclusion Protocol”。网站通过Robots协议告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取。

  

  机器人.txt

  1. 什么是robots.txt?

  搜索蜘蛛访问站点时,首先会检查站点根目录下是否存在robots.txt。如果存在,搜索机器人会根据文件内容确定访问范围;如果该文件不存在,所有 'S 搜索蜘蛛将能够访问 网站 上所有不受密码保护的页面。从表面上看,这个功能是有限的。从搜索引擎优化的角度来看,集中权重的效果可以通过拦截页面来实现,这也是优化者最重要的地方。

  这个文件必须放在网站的根目录下,并且有字母大小限制,文件名必须是小写字母。所有命令的第一个字母必须大写,其余的必须小写。并且命令后必须有一个英文字符空格。

  2.网站设置robots.txt的几个原因

  1)设置访问权限以保护网站安全。

  2) 禁止搜索引擎抓取无效页面,权重集中在主页面。

  3.如何编写标准语法的robots.txt协议?

  有几个概念需要掌握。

  User-agent表示定义的是哪个搜索引擎,比如User-agent:Baiduspider,定义了百度蜘蛛。

  Disallow 表示禁止访问。

  允许意味着运行访问。

  通过以上三个命令,你可以组合出多种写法,允许哪个搜索引擎访问或者禁止哪个页面。

  1) 允许所有搜索引擎访问网站的所有部分

  Robots.txt 的写法如下:

  用户代理: *

  不允许:

  或者

  用户代理: *

  允许: /

  注意:第一个英文必须大写。当冒号是英文时,冒号后面有一个空格。这几点不能错。

  2)禁止所有搜索引擎访问网站的所有部分

  Robots.txt 的写法如下:

  用户代理: *

  不允许: /

  3)允许或禁止访问搜索引擎

  禁止访问搜索引擎,例如禁止访问谷歌搜索引擎

  用户代理:Googlebot

  不允许: /

  允许访问某个搜索引擎,例如允许访问百度搜索引擎

  用户代理:百度蜘蛛

  允许: /

  4) 你只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引

  Robots.txt 的写法如下:

  用户代理: *

  禁止:/css/

  禁止:/管理员/

  禁止:/图像/

  注意:路径后面有斜线和不带斜线的区别:比如Disallow:/images/带斜线是禁止抓取整个文件夹的图片,Disallow:/images不带斜线表示有/images路径@> 中的关键词将被阻止。

  5) 阻止文件夹 /templets,但可以抓取其中一个文件:/templets/main

  Robots.txt 的写法如下:

  用户代理: *

  禁止:/templets

  允许:/main

  6) 禁止访问/html/目录(包括子目录)中所有后缀为“.php”的URL

  Robots.txt 的写法如下:

  用户代理: *

  禁止:/html/*.php

  7) 只允许访问某个目录下有某个后缀的文件,使用“$”

  Robots.txt 的写法如下:

  用户代理: *

  允许:.html$

  不允许: /

  8)禁止索引网站中的所有动态页面

  例如,带有“?”的域名 这里被限制了,比如index.php?id=1

  Robots.txt 的写法如下:

  用户代理: *

  不允许: /*?*

  9)禁止搜索引擎抓取我们网站上的所有图片(如果您的网站使用了其他后缀的图片名称,您也可以在这里直接添加)

  有时,为了节省服务器资源,我们需要禁止各种搜索引擎在网站上索引我们的图片。这里的方法除了使用“Disallow:/images/”直接屏蔽文件夹之外。也可以直接屏蔽图片后缀名。

  Robots.txt 的写法如下:

  用户代理: *

  禁止:.jpg$

  禁止:.jpeg$

  禁止:.gif$

  禁止:.png$

  禁止:.bmp$

  

  SEO(搜索引擎优化)

  4. 写robots.txt要注意什么

  1) 第一个英文要大写。当冒号是英文时,冒号后面有一个空格。这几点不能错。

  2)斜线:/代表整个网站

  3) 如果“/”后面有多余的空格,整个网站都会被阻塞

  4)不要禁止正常内容

  5) 生效时间是几天到两个月

  5. 我什么时候需要使用这个协议?

  1)无用页面,很多网站都有联系我们、用户协议等页面。这些页面在搜索引擎优化方面影响不大。这时候就需要使用Disallow命令来禁止这些页面被搜索引擎搜索。抓住。

  2)动态页面,企业类站点屏蔽动态页面,有利于网站安全。并且如果多个URL访问同一个页面,权重就会分散。因此,一般情况下,阻塞动态页面并保留静态或伪静态页面。

  3) 网站后台页面,网站后台页面也可以归为无用页面。禁止收录百利而无一害。

  在这种情况下,有一条灰线表示 robots.txt 正在运行。只是收录网站的地址栏:

  

  Robots.txt 设置禁止搜索引擎访问指令

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线