【智能模式】【流程图模式】如何设置智能策略
优采云 发布时间: 2020-08-15 03:49智能策略收录代理设置、智能切换和自动切换,这部份功能主要是拿来智能处理采集过程中遇见的各类问题。
在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“智能策略”选项可以切换到设置界面。
1、代理设置
1)代理类型
I、代理IP(由芝麻代理提供)
该代理为通过芝麻代理提供的订购插口,直接在软件内选购。
代理的区域可以进行设置,包括全省混拨、省份混拨或则指定城市。
II、自定义代理
如果须要使用自己的代理,请点击“立即设置”,然后在设置窗口中按要求进行设置。(注意:自定义代理按次序循环切换)
2)切换条件
I、按照时间切换
代理按照时间进行切换,例如您设置切换条件为“每隔:3分钟”,那么每隔3分钟都会切换一次代理,同时会消耗一个代理IP 。
II、按照文本切换
根据文本进行切换,例如您设置切换条件为“当页面中出现该文本:优采云”,那么网页中出现对应的文本时,就会切换一次代理,同时消耗一个代理IP。
2、智能切换
智能切换是我们推荐的首选设置,能满足绝大部分采集任务的需求。
3、手动切换
如果碰到的网页比较特殊,智能切换未能满足需求,我们可以设置自动切换。
I、请求等待时间
请求等待时间是加在网页点击操作以后的等待时间,通常用于打开网页或则点击翻页等操作以后的等待,通过降低该等待时间,可以减轻网页加载平缓的问题,或者增加采集速度。
II、运行中测量验证码
软件在采集过程中遇见未能采集到内容时,会手动进行验证码检查,如果碰到软件未兼容的情况,也可以自动设置验证码辨识条件,例如假如验证码提示页面中收录了“优采云”这个文本,我们可以设置条件为“当页面中出现该文本:优采云”。需要注意的是该条件一定要确保只会在验证码提示页面中出现,否则会出现误报的情况。
III、运行中测量登陆提示
需要登入能够采集数据的网站,在运行过程中登陆有可能会失效,或者有些网站采集到一定量的数据然后会提示登陆,勾选此功能,软件在运行过程中若果遇见登陆失效或须要登陆的情况会暂停任务并弹出登陆提示。
IV、仅采集页面可见内容
有一些网站会将无效的数据混在有效的数据之中,采集数据的时侯会出现好多无效的数据,这种情况下我们就可以勾选这个设置,只采集页面可见的内容。
注意:如果采集的网站没有隐藏无效字符的设置,勾选此项会导致数据采集不全或则数据难以采集,因此我们在使用此项功能时须要慎重。
V、逐行滚动网页预加载
有些网站需要滚动到一定位置以后内容才会显示,否则这种数据都未能采集,这时候可以勾选此项功能。但是须要注意的是,勾选此项功能的时侯会影响采集速度,需谨慎使用。
VI、定时切换浏览器版本
我们可以自定义设置切换版本的时间周期,设置时间周期可以是30秒~10分钟,软件会根据设置周期手动切换外置浏览器版本,用户无需自行选择具体版本。
VII、定时清理cookie
我们可以自定义设置消除cookie的时间周期,设置时间周期可以是30秒~10分钟,软件会根据设置周期定时清理网页Cookie。