php禁止网页抓取(几种常用的屏蔽抓取蜘蛛规则文件规则规则)
优采云 发布时间: 2021-10-01 14:08php禁止网页抓取(几种常用的屏蔽抓取蜘蛛规则文件规则规则)
总的来说,在网站建立和运营之后,总是希望收录的搜索引擎数量越多越好。但这通常是大多数人想要的。有时候,我们还是希望搜索引擎蜘蛛不要访问网站的某些文件夹,当然也有不想要搜索引擎收录的页面。
比如网站刚刚成立,还没有真正投入运营,没有实质性内容的时候;收录页面太多导致网站的权重分散,当权重聚集到一些最重要的页面时;再比如建立镜像网站,主要是利用其他推广方式(这里指SEO以外的推广方式)来操作网站……
搜索引擎收录网站页面需要通过蜘蛛网站进行访问,抓取页面内容。所以,一般情况下,如果要屏蔽搜索引擎,就需要限制和屏蔽蜘蛛的访问和爬取。下面笔者介绍几种常用的拦截蜘蛛爬行的方法。
1.robots.txt 规则文件。
大家都知道robots.txt是引导搜索引擎蜘蛛访问这个网站的规则,通常用的比较多。一般的建议是不管网站是否需要屏蔽收录的内容,都在根目录下创建robots.txt文件。
robots.txt 文件的规则非常简单。例如,如果您需要阻止搜索引擎的蜘蛛访问所有目录,只需编写:
用户代理:Googlebot
不允许:/
另一个例子是禁止所有蜘蛛访问和爬取某个目录:
用户代理:*
禁止:/管理员/
2.机器人元标记。
如果robots.txt是放置在网站中的规则文件,那么robots Meta就是放置在网页中的标签。两者的实际功能大致相同,只是robots.txt大部分搜索引擎都支持,而后者大部分搜索引擎不支持。另外,相比之下,单独设置某些页面时使用robots Meta。
robots Meta 标签必须存储在“”代码中:
其中,“索引”是指索引,“跟随”是指跟随链接并传递相应的权重。当然,对应的还有“noindex”和“nofollow”,功能正好相反。
3.服务器配置文件。
该方法是屏蔽蜘蛛最不常用的方法,主要用于屏蔽“不遵守”robots.txt规则的蜘蛛。
方法是分析一段时间的网站日志,找到需要屏蔽的蜘蛛及其ip。然后通过服务器的配置文件进行拦截,从而阻止某个蜘蛛爬取网站。当然,这种方法使用起来并不灵活,例如无法单独阻止蜘蛛对某个文件夹(或网页)的抓取。
视服务器及其系统而定,具体请参考相关设置方法。
除了上面提到的三种拦截蜘蛛的方法,应该还有其他的方法可以达到拦截蜘蛛的目的。欢迎各位专家在闲暇之余补充。
但就以上三种方式而言,第一种robots.txt规则文件使用的比较广泛。