php禁止网页抓取(几种常用的屏蔽抓取蜘蛛规则文件规则规则)

优采云发布时间: 2021-10-01 14:08

　　总的来说，在网站建立和运营之后，总是希望收录的搜索引擎数量越多越好。但这通常是大多数人想要的。有时候，我们还是希望搜索引擎蜘蛛不要访问网站的某些文件夹，当然也有不想要搜索引擎收录的页面。

　　比如网站刚刚成立，还没有真正投入运营，没有实质性内容的时候；收录页面太多导致网站的权重分散，当权重聚集到一些最重要的页面时；再比如建立镜像网站，主要是利用其他推广方式（这里指SEO以外的推广方式）来操作网站……

　　搜索引擎收录网站页面需要通过蜘蛛网站进行访问，抓取页面内容。所以，一般情况下，如果要屏蔽搜索引擎，就需要限制和屏蔽蜘蛛的访问和爬取。下面笔者介绍几种常用的拦截蜘蛛爬行的方法。

　　1.robots.txt 规则文件。

　　大家都知道robots.txt是引导搜索引擎蜘蛛访问这个网站的规则，通常用的比较多。一般的建议是不管网站是否需要屏蔽收录的内容，都在根目录下创建robots.txt文件。

　　robots.txt 文件的规则非常简单。例如，如果您需要阻止搜索引擎的蜘蛛访问所有目录，只需编写：

　　用户代理：Googlebot

　　不允许：/

　　另一个例子是禁止所有蜘蛛访问和爬取某个目录：

　　用户代理：*

　　禁止：/管理员/

　　2.机器人元标记。

　　如果robots.txt是放置在网站中的规则文件，那么robots Meta就是放置在网页中的标签。两者的实际功能大致相同，只是robots.txt大部分搜索引擎都支持，而后者大部分搜索引擎不支持。另外，相比之下，单独设置某些页面时使用robots Meta。

　　robots Meta 标签必须存储在“”代码中：

　　其中，“索引”是指索引，“跟随”是指跟随链接并传递相应的权重。当然，对应的还有“noindex”和“nofollow”，功能正好相反。

　　3.服务器配置文件。

　　该方法是屏蔽蜘蛛最不常用的方法，主要用于屏蔽“不遵守”robots.txt规则的蜘蛛。

　　方法是分析一段时间的网站日志，找到需要屏蔽的蜘蛛及其ip。然后通过服务器的配置文件进行拦截，从而阻止某个蜘蛛爬取网站。当然，这种方法使用起来并不灵活，例如无法单独阻止蜘蛛对某个文件夹（或网页）的抓取。

　　视服务器及其系统而定，具体请参考相关设置方法。

　　除了上面提到的三种拦截蜘蛛的方法，应该还有其他的方法可以达到拦截蜘蛛的目的。欢迎各位专家在闲暇之余补充。

　　但就以上三种方式而言，第一种robots.txt规则文件使用的比较广泛。

0

2021-10-01

php禁止网页抓取

0 个评论

要回复文章请先登录或注册