php禁止网页抓取(“robots.txt只允许抓取html页面,防止抓取垃圾信息!”)

优采云 发布时间: 2022-03-29 05:19

  php禁止网页抓取(“robots.txt只允许抓取html页面,防止抓取垃圾信息!”)

  今天大贷SEO详细讲解“robots.txt只允许抓取html页面,防止抓取垃圾邮件!” 代代SEO做了这么多年网站,经常遇到客户的网站被挂掉的情况,原因是不利于自己维护网站,或者使用市面上开源的cms,直接下载源码安装使用,不管里面有没有漏洞和后门,所以后期被马入侵了,大百度抓取的非法页面数量。

  

  有些被链接的人很奇怪,为什么他们的网站正常发布的内容不是收录,而垃圾页面的很多非法内容是百度的收录。其实很简单。马人员直接链接了spider pool里面的非法页面,所以才会出现这个问题。即使我们解决了网站被链接到马的问题,网站上的垃圾页面还是会继续出现。死链接被百度抓取后需要很长时间才能生效。这个时候我该怎么办?我们可以使用 robots.txt 来解决这个问题。

  

  实施原则:

  我们可以通过robots.txt来限制用户只能抓取HTMl页面文件,并且可以限制指定目录的HTML,屏蔽指定目录的HTML文件。我们来做一个robots.txt的写法。您可以自己研究并应用到实际应用中。继续你自己的网站。

  

  可解决的挂马形式:

  写机器人的规则主要针对上传类,比如添加xxx.php?=dddd.html;xxxx.php; 并且上传不会被百度抓取,降低网络监控风险。

  #适用于所有搜索引擎

  用户代理:*

  #允许首页根目录/不带斜线,例如

  允许:/$

  允许:$

  #文件属性设置禁止修改(固定属性,入口只能是index.html/index.php)

  允许:/index.php

  允许:/index.html

  #允许爬取静态生成的目录,这里是允许爬取页面中的所有html文件

  允许:/*.html$

  #禁止所有带参数的html页面(禁止抓取挂马的html页面) 规则可以自己定义

  禁止:/*?*.html$

  禁止:/*=*.html$

  # 允许单个条目,只允许,with ? 编号索引,其他html,带符号,是不允许的。

  允许:/index.php?*

  #允许资源文件,允许在网站上截取图片。

  允许:/*.jpg$

  允许:/*.png$

  允许:/*.gif$

  #除上述外,禁止爬取网站内的任何文件或页面。

  不允许:/

  比如我们的网站挂了,后面的戳一般。php?unmgg.html 或 dds=123.html。这种,只要网址有 ? ,=这样的符号,当然你可以给它添加更多的格式,比如带下划线“_”,可以使用“Disallow:/_*.html$”进行防御。

  再比如:挂马是一个目录,一个普通的URL,比如“seozt/1233.html”,可以加一条禁止规则“Disallow:/seozt/*.html$”,这个规则就是告诉搜索引擎,只要是seozt目录下的html文件,就不能被抓取。你明白吗?其实很简单。只是自己熟悉它。

  这种写法的优点是:

  首先,蜘蛛会爬取你的很多核心目录、php目录、模板目录,这样会浪费很多目录资源。对了,如果我们屏蔽目录,我们会在 robots.txt 中暴露我们的目录,其他人可以分析我们使用的目录。它是什么程序?这时候我们就逆向操作,直接允许html,其他的都拒绝,可以有效避免暴露目录的风险,对了,好吧,今天就讲到这里,希望大家能理解。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线