php禁止网页抓取(“robots.txt只允许抓取html页面,防止抓取垃圾信息!”)
优采云 发布时间: 2022-03-29 05:19php禁止网页抓取(“robots.txt只允许抓取html页面,防止抓取垃圾信息!”)
今天大贷SEO详细讲解“robots.txt只允许抓取html页面,防止抓取垃圾邮件!” 代代SEO做了这么多年网站,经常遇到客户的网站被挂掉的情况,原因是不利于自己维护网站,或者使用市面上开源的cms,直接下载源码安装使用,不管里面有没有漏洞和后门,所以后期被马入侵了,大百度抓取的非法页面数量。
有些被链接的人很奇怪,为什么他们的网站正常发布的内容不是收录,而垃圾页面的很多非法内容是百度的收录。其实很简单。马人员直接链接了spider pool里面的非法页面,所以才会出现这个问题。即使我们解决了网站被链接到马的问题,网站上的垃圾页面还是会继续出现。死链接被百度抓取后需要很长时间才能生效。这个时候我该怎么办?我们可以使用 robots.txt 来解决这个问题。
实施原则:
我们可以通过robots.txt来限制用户只能抓取HTMl页面文件,并且可以限制指定目录的HTML,屏蔽指定目录的HTML文件。我们来做一个robots.txt的写法。您可以自己研究并应用到实际应用中。继续你自己的网站。
可解决的挂马形式:
写机器人的规则主要针对上传类,比如添加xxx.php?=dddd.html;xxxx.php; 并且上传不会被百度抓取,降低网络监控风险。
#适用于所有搜索引擎
用户代理:*
#允许首页根目录/不带斜线,例如
允许:/$
允许:$
#文件属性设置禁止修改(固定属性,入口只能是index.html/index.php)
允许:/index.php
允许:/index.html
#允许爬取静态生成的目录,这里是允许爬取页面中的所有html文件
允许:/*.html$
#禁止所有带参数的html页面(禁止抓取挂马的html页面) 规则可以自己定义
禁止:/*?*.html$
禁止:/*=*.html$
# 允许单个条目,只允许,with ? 编号索引,其他html,带符号,是不允许的。
允许:/index.php?*
#允许资源文件,允许在网站上截取图片。
允许:/*.jpg$
允许:/*.png$
允许:/*.gif$
#除上述外,禁止爬取网站内的任何文件或页面。
不允许:/
比如我们的网站挂了,后面的戳一般。php?unmgg.html 或 dds=123.html。这种,只要网址有 ? ,=这样的符号,当然你可以给它添加更多的格式,比如带下划线“_”,可以使用“Disallow:/_*.html$”进行防御。
再比如:挂马是一个目录,一个普通的URL,比如“seozt/1233.html”,可以加一条禁止规则“Disallow:/seozt/*.html$”,这个规则就是告诉搜索引擎,只要是seozt目录下的html文件,就不能被抓取。你明白吗?其实很简单。只是自己熟悉它。
这种写法的优点是:
首先,蜘蛛会爬取你的很多核心目录、php目录、模板目录,这样会浪费很多目录资源。对了,如果我们屏蔽目录,我们会在 robots.txt 中暴露我们的目录,其他人可以分析我们使用的目录。它是什么程序?这时候我们就逆向操作,直接允许html,其他的都拒绝,可以有效避免暴露目录的风险,对了,好吧,今天就讲到这里,希望大家能理解。