php禁止网页抓取(“robots.txt只允许抓取html页面，防止抓取垃圾信息！”)

优采云发布时间: 2022-03-29 05:19

　　今天大贷SEO详细讲解“robots.txt只允许抓取html页面，防止抓取垃圾邮件！” 代代SEO做了这么多年网站，经常遇到客户的网站被挂掉的情况，原因是不利于自己维护网站，或者使用市面上开源的cms，直接下载源码安装使用，不管里面有没有漏洞和后门，所以后期被马入侵了，大百度抓取的非法页面数量。

　　有些被链接的人很奇怪，为什么他们的网站正常发布的内容不是收录，而垃圾页面的很多非法内容是百度的收录。其实很简单。马人员直接链接了spider pool里面的非法页面，所以才会出现这个问题。即使我们解决了网站被链接到马的问题，网站上的垃圾页面还是会继续出现。死链接被百度抓取后需要很长时间才能生效。这个时候我该怎么办？我们可以使用 robots.txt 来解决这个问题。

　　实施原则：

　　我们可以通过robots.txt来限制用户只能抓取HTMl页面文件，并且可以限制指定目录的HTML，屏蔽指定目录的HTML文件。我们来做一个robots.txt的写法。您可以自己研究并应用到实际应用中。继续你自己的网站。

　　可解决的挂马形式：

　　写机器人的规则主要针对上传类，比如添加xxx.php?=dddd.html;xxxx.php; 并且上传不会被百度抓取，降低网络监控风险。

　　#适用于所有搜索引擎

　　用户代理：*

　　#允许首页根目录/不带斜线，例如

　　允许：/$

　　允许：$

　　#文件属性设置禁止修改（固定属性，入口只能是index.html/index.php）

　　允许：/index.php

　　允许：/index.html

　　#允许爬取静态生成的目录，这里是允许爬取页面中的所有html文件

　　允许：/*.html$

　　#禁止所有带参数的html页面（禁止抓取挂马的html页面）规则可以自己定义

　　禁止：/*?*.html$

　　禁止：/*=*.html$

　　# 允许单个条目，只允许，with ? 编号索引，其他html，带符号，是不允许的。

　　允许：/index.php?*

　　#允许资源文件，允许在网站上截取图片。

　　允许：/*.jpg$

　　允许：/*.png$

　　允许：/*.gif$

　　#除上述外，禁止爬取网站内的任何文件或页面。

　　不允许：/

　　比如我们的网站挂了，后面的戳一般。php?unmgg.html 或 dds=123.html。这种，只要网址有 ? ,=这样的符号，当然你可以给它添加更多的格式，比如带下划线“_”，可以使用“Disallow:/_*.html$”进行防御。

　　再比如：挂马是一个目录，一个普通的URL，比如“seozt/1233.html”，可以加一条禁止规则“Disallow:/seozt/*.html$”，这个规则就是告诉搜索引擎，只要是seozt目录下的html文件，就不能被抓取。你明白吗？其实很简单。只是自己熟悉它。

　　这种写法的优点是：

　　首先，蜘蛛会爬取你的很多核心目录、php目录、模板目录，这样会浪费很多目录资源。对了，如果我们屏蔽目录，我们会在 robots.txt 中暴露我们的目录，其他人可以分析我们使用的目录。它是什么程序？这时候我们就逆向操作，直接允许html，其他的都拒绝，可以有效避免暴露目录的风险，对了，好吧，今天就讲到这里，希望大家能理解。

0

2022-03-29

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(“robots.txt只允许抓取html页面，防止抓取垃圾信息！”)

0 个评论

发起人