php禁止网页抓取(之一就是通过robots.txt文件来实现收录/抓取)

优采云 发布时间: 2022-01-21 18:20

  php禁止网页抓取(之一就是通过robots.txt文件来实现收录/抓取)

  平时比如后台管理登录页面、会员登录注册页面等,不想被搜索引擎抓取收录/,怎么办?一种方法是通过 robots.txt 文件。

  机器人也称为爬虫协议。写成robots.txt(不需要写成Robots.txt),必须放在网站的根目录下。其他目录无效。搜索引擎爬虫首先访问/爬取网站 robots.txt文件,然后是index.html/index.php、网站目录等网站告诉搜索引擎哪些页面可以爬取以及哪些页面不能通过robots协议爬取。很多人知道其中一个,不知道另一个,并且知道一些简单的拼写和用法。但是有些人仍然忽略它,那就是安全和隐私问题。

  以下为个人写作,仅供参考:

  User-agent:*搜索引擎的标识,*代表任何引擎,包括百度、谷歌等,如果要具体指定,这里不再详述。

  Disallow: /a*/ 禁止访问以“a”开头的目录改编,例如:admin/index.html 是不可访问的。

  Disallow: /C*/ 同上,这个大写的 C 应该区分大小写。

  Disallow: /js/ 禁止对 js 目录的任何访问

  不允许: /*?不允许收录 ? 的 URL,例如 : 或 this。

  Disallow: /*.jpg$ 禁止访问所有以 .jpg 结尾的图像

  站点地图:允许访问此 网站 地图文件。

  这里需要注意的一点是使用网站 map 命令,将网站 map 的URL 地址用"" 包裹起来。有人说不用加。

  使用 * 适配符号来防止黑客或恶意攻击。觉得不重要的不要用*,写全名就好,比如“/js/”。

  一些像谷歌这样的搜索引擎也支持在网页上书写来实现它们的功能。

  注意:robots.txt 命令只是给爬虫访问你的 网站 的指令,robots.txt 文件中的命令不会强制爬虫爬取你的 网站 进行相应的操作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线