网站常见的防采集套路有哪些?防采套路介绍
优采云 发布时间: 2021-07-08 19:17网站常见的防采集套路有哪些?防采套路介绍
什么是反采集?
用白话来说,我们想用一个工具采集一些网站的数据(前提当然是公开合法数据),但是网站不想给你采集和设置采取技术封锁措施。
网站常见的防御采集套路有哪些?
反挖矿套路一:输入验证码框进行验证
采集难度:★☆☆☆☆
常见网站:搜狗微信
在采集一些网站的过程中,爪子是不是经常遇到这样的情况要求你输入验证码,不然会卡死无法继续?
是的,这是网站最常用也是最基本的预防措施之一。它需要您手动输入验证码中的数字和字母,然后才能继续查看更多信息或进行下一步。用这个来判断你是机器人还是真人。
反挖矿套路2:滑动拼图验证
采集难度:★★☆☆☆
常见网站:拉勾、B站
升级版的验证码反收获例程也是网站验证当前浏览用户是机器人还是人类最常用的方法之一。
需要您将拼图滑动到指定位置才能通过验证并进行下一步。
反挖矿例程3:登录验证
采集难度:★★★☆☆
普通网站:新浪微博,新榜
这种网站通常需要登录才能看到更丰富的信息,否则只会显示非常有限的内容。放在优采云采集器中,只要启动,这种网站会立即弹出登录窗口进行下一步,有时还会出现在采集的进程中。如果你不明白如何设置登录过程的爪子,你很快就会被提醒“采集TERMINATION”。
反挖矿程序四:数据加密
采集难度:★★★★☆
常见网站:公众意见
某些网站 通过加密采集 来保护数据。比如大众点评(上图),我们在网页上看到的是这家餐厅的“地址”,但是当我们打开源代码时,这段文字已经被加密分离了。会发生什么?
这样会导致文字即使采集down 也会出现乱码或碎片,无法整合成完整的文字。
反挖矿套路5:反馈虚假数据
采集难度:★★★★★
常见网站:携程网
我最近看到了携程开发写的一篇关于他们如何向爬虫“假数据”反馈的帖子。看完觉得携程太“可怕”了!
当你发现你这么辛苦采集down的数据竟然是假的,你累吗? !所谓道高一尺,魔高一尺。如果遇到这种“毒”你的网站,请绕道,除非你有更好的办法!
反挖矿程序6:不允许访问
采集难度:★★★★★
普通网站:个人网站
小八目前还没有遇到过这种情况。当然,我们没事,不会刻意“试法”来测试网站的底线。
在这种情况下,主要原因是网站的反开发机制的设计。如果触发,通常的结果是完全封锁和禁止。例如,阻止您的帐户并阻止您的 IP 地址。一旦被屏蔽,网站会自动给你一个错误页面或无法让你正常浏览。
几种情况最有可能触发反采集。
1、采集速度太快频率太高
嗯?这个用户怎么能在一分钟内浏览几十个页面?还是24小时不休息?有问题,我要查!啊,绝对是机器,挡住了~!
采集速度太快,频率太快,容易引起对方网站的注意,对方人员很容易认出你是机器爬取其内容,而不是人存在。毕竟普通人不能像机器人那样高速奔跑。
2、采集数据量太大
当你的速度和频率上来时,你的采集数据量将是巨大的。小八曾经遇到过一天一爪子采集几百万数据的情况。如果对方官网严防收购,很容易触发反采集机制。
3、 始终使用相同的 IP 或帐户
一旦对方网站发现你的IP/账号是机器爬虫,那么很有可能你的IP/账号会被列入他们的黑名单,不允许你访问或显示错误页面将来。让你无处可去。
针对采集优采云推出了一系列智能防封解决方案!
方案一:自动识别并输入验证码
优采云提供验证码识别控制,目前支持8种智能识别的自动识别,包括字母、数字、汉字、混合算术计算!
方案二:自动滑动拼图验证
遇到滑块?别着急,优采云支持自动识别滑块验证,并让机器自动拖动到指定位置,网站verification。
优采云自动通过滑块验证
方案三:设置自动登录
优采云提供以下两种登录方式:
1)文字+点击登录
在优采云中设计登录流程。 采集过程中优采云会自动输入用户名和密码登录(PS,优采云不会获取任何用户隐私)
2)Cookie 登录
登录优采云,通过登录后记住cookies,下次直接在登录采集后的状态打开网页。
解决方案 4:放慢采集speed
1)Ajax 加载
AJAX:一种用于延迟加载和异步更新的脚本技术。简单来说,我们可以利用ajax技术让网页加载时间更长(可以设置为0-30秒),让浏览速度慢一点,避免阻塞。
2)执行前等待
执行前等待是指在执行采集操作之前,优采云默认会自动等待一段时间,以确保采集的数据已经加载完毕。这种方法也适用于反收割比较严格的网站。通过减慢采集 以避免反爬行动物跟踪。
方案五:优质代理IP
优采云提供优质代理IP池,支持采集进程智能定时切换IP,避免同一IP采集被网站跟踪拦截。