网站设置反爬虫设施，抵制恶意爬虫，可以通过什么方法?

优采云发布时间: 2021-04-24 02:32

　　反爬行动物措施如何保护网站内容？

　　原创内容的生成并不容易。它不仅消耗大量时间和精力，而且在内容为王的这个时代，好的原创内容可以吸引并留住用户。但是现在使用代理IP使得抓取工作变得更加容易。网站如果您未采取相应的反爬网措施来保护网站的原创内容，则只能看到您的宝贵内容被白白地恶意*敏*感*词*。拿。

　　网站设置防爬虫工具以抵御恶意的爬虫。可以使用什么方法？

　　1、机器人协议

　　此外，在爬虫爬网技术领域中有一种“白道”方法，称为“机器人协议”。您可以在网站的根目录中访问/robots.txt。例如，让我们看一下github的机器人协议。允许和禁止为每个UA爬网程序声明爬网的授权。

　　但是，这仅是绅士的协议。尽管具有法律利益，但它只能限制商业搜索引擎的蜘蛛程序。您不能限制那些“野生爬行者”。

　　2、基于客户端js运行时的检测

　　过去曾经有基于Webkit内核的PhantomJS，基于Firefox浏览器内核的SlimerJS，甚至有基于IE内核的trifleJS。如果您有兴趣，可以在这里和这里查看两个无头浏览器的集合列表。

　　这些无头浏览器程序的实现原理实际上是对一些开源浏览器核心C ++代码进行转换和封装，以实现无需GUI界面呈现的简单浏览器程序。但是这些项目的共同问题是，由于它们的代码基于官方fork webkit和其他内核的特定版本的主干代码，因此无法跟进一些最新的CSS属性和js语法，并且一些兼容性问题，不如真正的问题。 GUI浏览器的发行版。

　　PhantonJS应该是最成熟和最常用的。 PhantomJS存在很多问题，因为它是单进程模型，没有必要的沙箱保护，并且浏览器内核的安全性很差。

　　现在，谷歌浏览器团队已在chrome 59发行版中打开了无头模式api，并开源了基于Node.js调用的无头铬驱动程序库。我还为此库贡献了一份centos环境部署依赖项安装列表。

　　无头铬可以说是无头浏览器中独特的杀手big。由于它本身是Chrome浏览器，因此它支持各种新的CSS渲染功能和js运行时语法。

　　基于此方法，作为攻击方的采集器可以绕过几乎所有服务器端验证逻辑，但是这些采集器在客户端js运行时中仍存在一些缺陷，例如：

　　根据插件对象检查