技巧:一种自动识别web爬虫的方法与流程
优采云 发布时间: 2020-09-01 01:20自动识别网络爬虫的方法和过程
步骤4: 如果客户端未执行重定向操作,或者cookie值不正确,则设置badcookie并将其标记为采集器.
根据上述解决方案,步骤1、2和3重复了几次,但没有超过浏览器设置的重定向限制.
根据上述方案,第一种对称加密算法是DES,TripleDES,RC2,RC4,RC5和Blowfish中的一种,第二种对称加密算法是DES,TripleDES,RC2,RC4,RC4和RC5中的一种. 与第一种对称加密算法不同.
与现有技术相比,本发明的有益效果是: 1)它可以阻止大多数静态爬虫的进入. 如果采集器无法执行主页的JS代码,则只能搜寻到服务器仅返回JS代码的主页. ,无法获得真实的首页. 2)只要采集器具有重复数据删除功能,它就不会继续搜寻,因为它会跳转到同一页面. 3)此方法的适用页面包括但不限于主页,可以在网站的任何页面中使用该页面,以有效地防止抓取采集信息.
图纸说明
图. 图1是本发明的自动识别网络爬虫的方法的示意性流程图.
具体的实现方法
下面将参考附图和特定实施例进一步详细描述本发明. 通过将javascript嵌入网页中一次或多次重定向到同一页面并同时返回状态代码,爬网程序由于重复数据删除而无法正常爬网该页面. 执行onload中javascript代码指定的cookie或badcookie,以识别请求是否来自采集器.
服务器的主页返回一个仅收录JS代码(用JavaScript编写的脚本扩展代码)的页面. 此代码位于onload函数中,并在页面完全加载后执行. 此JS代码将使用某种算法(IP,标头和其他信息作为算法参数)来设置cookie字段,然后使用window.location跳到主页(此页面). 服务器检测到该cookie有效,并返回另一个JS,它使用另一种算法来设置cookie字段. 根据网站的需要,上述步骤可以重复几次,但不能超过浏览器设置的重定向限制. 仅当所有cookie字段均有效时,才会返回常规主页URL. 如果客户端不执行重定向操作,或者cookie值不正确,则可以设置badcookie并将其标记为采集器. 同时,可以根据服务器请求记录中的请求数量将其确定为爬网程序. 例如,收录所有正确cookie的第一个get请求必须是采集器.
本发明涉及的算法是对称加密算法,主要包括DES,TripleDES,RC2,RC4,RC5和Blowfish. 为了防止用户预先访问浏览器中的页面以获得正确的cookie,可以将具有相同功能的页面添加到网站的页面目录的每个级别中,以增强防爬网效果.