技巧：一种自动识别web爬虫的方法与流程

优采云发布时间: 2020-09-01 01:20

　　自动识别网络爬虫的方法和过程

　　步骤4: 如果客户端未执行重定向操作，或者cookie值不正确，则设置badcookie并将其标记为采集器.

　　根据上述解决方案，步骤1、2和3重复了几次，但没有超过浏览器设置的重定向限制.

　　根据上述方案，第一种对称加密算法是DES，TripleDES，RC2，RC4，RC5和Blowfish中的一种，第二种对称加密算法是DES，TripleDES，RC2，RC4，RC4和RC5中的一种. 与第一种对称加密算法不同.

　　与现有技术相比，本发明的有益效果是: 1）它可以阻止大多数静态爬虫的进入. 如果采集器无法执行主页的JS代码，则只能搜寻到服务器仅返回JS代码的主页. ，无法获得真实的首页. 2）只要采集器具有重复数据删除功能，它就不会继续搜寻，因为它会跳转到同一页面. 3）此方法的适用页面包括但不限于主页，可以在网站的任何页面中使用该页面，以有效地防止抓取采集信息.

　　图纸说明

　　图. 图1是本发明的自动识别网络爬虫的方法的示意性流程图.

　　具体的实现方法

　　下面将参考附图和特定实施例进一步详细描述本发明. 通过将javascript嵌入网页中一次或多次重定向到同一页面并同时返回状态代码，爬网程序由于重复数据删除而无法正常爬网该页面. 执行onload中javascript代码指定的cookie或badcookie，以识别请求是否来自采集器.

　　服务器的主页返回一个仅收录JS代码（用JavaScript编写的脚本扩展代码）的页面. 此代码位于onload函数中，并在页面完全加载后执行. 此JS代码将使用某种算法（IP，标头和其他信息作为算法参数）来设置cookie字段，然后使用window.location跳到主页（此页面）. 服务器检测到该cookie有效，并返回另一个JS，它使用另一种算法来设置cookie字段. 根据网站的需要，上述步骤可以重复几次，但不能超过浏览器设置的重定向限制. 仅当所有cookie字段均有效时，才会返回常规主页URL. 如果客户端不执行重定向操作，或者cookie值不正确，则可以设置badcookie并将其标记为采集器. 同时，可以根据服务器请求记录中的请求数量将其确定为爬网程序. 例如，收录所有正确cookie的第一个get请求必须是采集器.

　　本发明涉及的算法是对称加密算法，主要包括DES，TripleDES，RC2，RC4，RC5和Blowfish. 为了防止用户预先访问浏览器中的页面以获得正确的cookie，可以将具有相同功能的页面添加到网站的页面目录的每个级别中，以增强防爬网效果.

0

2020-09-01

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

技巧：一种自动识别web爬虫的方法与流程

0 个评论

发起人