网页采集器的自动识别算法(优采云采集器可以进行自动翻页,登录成功之后就能进行数据采集)
优采云 发布时间: 2021-12-07 09:24网页采集器的自动识别算法(优采云采集器可以进行自动翻页,登录成功之后就能进行数据采集)
在智能模式下,优采云采集器可以自动翻页,所以输入的URL应该已经完成了搜索操作,显示出最终需要采集内容的页面(或需要 采集 的多个连续页面)。
例如:单个网址采集,在爱奇艺中搜索“极限挑战”,打开对应页面,将网址复制粘贴到软件中即可。
4、选择页面类型并设置分页
在智能模式下,优采云采集器默认会识别列表类型。如果输入单页类型,此时会出现识别错误;或者其他原因,即使是列表类型的网页,智能识别也可能存在偏差。这时候可以先手动自动识别。如果手动自动识别不起作用,您可以手动点击列表来辅助软件识别正确的结果。
5、登录前
在数据采集的过程中,我们有时会遇到需要登录才能查看内容的网页。这时候就需要用到预登录功能了。登录成功后就可以进行正常的数据采集。
6、切换浏览器模式
在数据采集的过程中,可以使用不同的浏览器模式来优化采集的效果,具体的使用场景需要根据实际情况来判断。
7、设置提取字段
在智能模式下,软件会自动识别网页中的数据并显示到采集结果预览窗口。用户可以根据自己的需要设置字段。只需单击鼠标右键。
8、采集 任务设置
在启动采集任务之前,我们需要设置采集任务,包括一些定时启动、防阻塞、自动导出、加速引擎。
9、抗屏蔽
防屏蔽功能有多种设置,用户可以通过多种方式达到防屏蔽或防攀爬的目的。
10、自动导出
自动导出功能可以将采集的结果与数据采集同时自动发布到数据库中,无需等待任务结束才导出数据。自动入库功能结合定时采集功能,可以大大节省时间,提高工作效率。
11、 完成以上操作后,点击开始按钮或返回页面点击保存。
上面介绍的内容是关于优采云采集器正确输入URL的方法,不知道大家有没有学过,如果你也遇到这样的问题,可以根据小编的方法,希望能帮助大家解决问题,谢谢!!!更多软件教程请关注Win10镜像官网~~~