网站设置反爬虫设施,抵制恶意爬虫,可以通过什么方法?

优采云 发布时间: 2021-04-24 02:32

  

网站设置反爬虫设施,抵制恶意爬虫,可以通过什么方法?

  反爬行动物措施如何保护网站内容?

  原创内容的生成并不容易。它不仅消耗大量时间和精力,而且在内容为王的这个时代,好的原创内容可以吸引并留住用户。但是现在使用代理IP使得抓取工作变得更加容易。 网站如果您未采取相应的反爬网措施来保护网站的原创内容,则只能看到您的宝贵内容被白白地恶意*敏*感*词*。拿。

  网站设置防爬虫工具以抵御恶意的爬虫。可以使用什么方法?

  1、机器人协议

  此外,在爬虫爬网技术领域中有一种“白道”方法,称为“机器人协议”。您可以在网站的根目录中访问/robots.txt。例如,让我们看一下github的机器人协议。允许和禁止为每个UA爬网程序声明爬网的授权。

  但是,这仅是绅士的协议。尽管具有法律利益,但它只能限制商业搜索引擎的蜘蛛程序。您不能限制那些“野生爬行者”。

  2、基于客户端js运行时的检测

  过去曾经有基于Webkit内核的PhantomJS,基于Firefox浏览器内核的SlimerJS,甚至有基于IE内核的trifleJS。如果您有兴趣,可以在这里和这里查看两个无头浏览器的集合列表。

  这些无头浏览器程序的实现原理实际上是对一些开源浏览器核心C ++代码进行转换和封装,以实现无需GUI界面呈现的简单浏览器程序。但是这些项目的共同问题是,由于它们的代码基于官方fork webkit和其他内核的特定版本的主干代码,因此无法跟进一些最新的CSS属性和js语法,并且一些兼容性问题,不如真正的问题。 GUI浏览器的发行版。

  PhantonJS应该是最成熟和最常用的。 PhantomJS存在很多问题,因为它是单进程模型,没有必要的沙箱保护,并且浏览器内核的安全性很差。

  现在,谷歌浏览器团队已在chrome 59发行版中打开了无头模式api,并开源了基于Node.js调用的无头铬驱动程序库。我还为此库贡献了一份centos环境部署依赖项安装列表。

  无头铬可以说是无头浏览器中独特的杀手big。由于它本身是Chrome浏览器,因此它支持各种新的CSS渲染功能和js运行时语法。

  基于此方法,作为攻击方的采集器可以绕过几乎所有服务器端验证逻辑,但是这些采集器在客户端js运行时中仍存在一些缺陷,例如:

  根据插件对象检查

  

  基于语言的检查

  

  基于Webgl的检查

  

  根据浏览器发际线功能进行检查

  

  检查基于错误的img src属性生成的img对象

  

  根据上述某些浏览器功能的判断,它基本上可以杀死市场上大多数无头的浏览器程序。此时,它实际上提高了Web爬网的门槛,要求编写爬网程序的开发人员必须修改浏览器内核的C ++代码并重新编译浏览器。另外,以上几点是浏览器内核的特征。这些变化实际上并不小。

  上面介绍了两种更常用的防爬策略,网站中的大多数将被应用。尽管现在有许多防攀爬策略,但作为网站操作,不应错过应该采取的保护措施。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线