php禁止网页抓取(怎么禁止这些不遵循robots协议的搜索引擎我们不想的评判)
优采云 发布时间: 2021-12-02 05:00php禁止网页抓取(怎么禁止这些不遵循robots协议的搜索引擎我们不想的评判)
相信大家还记得,360搜索引擎刚出来的时候,因为没有遵守robots协议,就被百度抓到了。我们不会判断谁对谁错。今天我们要讨论的是如何禁止这些不遵守机器人协议的搜索。引擎抓取我们不希望它们抓取的内容。
前不久,WordPress官方插件目录中新增了一个名为Blackhole for Bad Bots的插件。这个插件就是用来清理这些不守规矩的搜索引擎蜘蛛的。插件的原理很有意思。一个虚拟链接被添加到 robots.txt 文件中。一旦蜘蛛试图访问它,插件就会禁止蜘蛛访问网站中的其他页面。遵守规则的蜘蛛自然不会访问此链接,可以畅通无阻地抓取网站允许搜索引擎收录的页面。
这相当于设置了一个巧妙的陷阱。如果你遵守规则,我自然欢迎你。你已经踏入了我不守规矩布置的圈套。哈哈,对不起,这里不欢迎你。更棒的是普通用户看不到这个隐藏链接,遵循robots协议的搜索引擎不受影响。
特征
如果你的网站不是基于WordPress的,没关系,只要你使用的语言是PHP,通过Blackhole的独立PHP版本就可以实现同样的功能!
白名单
默认情况下,该插件不会屏蔽以下任何主流搜索引擎。以下搜索引擎默认添加到插件的白名单中。该插件还允许我们在设置中手动将其他搜索引擎添加到白名单中。
如果您的 网站 不是基于 WordPress 构建的,您也可以使用该插件的 PHP 版本。