连续动作的概念: 掌握JS动态网页信息采集
优采云 发布时间: 2020-08-08 17:53注意: 从GooSeeker采集器的V9.0.2版本开始,采集器术语“主题”已更改为“任务”. 在采集器浏览器中,首先命名任务,然后创建规则,然后登录到Jisuke官方网站的成员中心. 在“任务管理”中,您可以查看任务采集和执行,管理线程URL以及进行计划设置.
下面将从四个方面全面介绍连续动作的知识点: 连续动作的应用范围,动作类型,连续动作的使用方法以及连续动作的循环执行指令.
1. 连续动作的适用范围
越来越多的网页使用JS动态技术,即网页信息不会立即显示,而是仅在单击或输入操作以浏览到所需信息后显示,例如条件过滤,输入关键字搜索,滚动加载,单击目录等等,并且此类网页通常没有单独的URL,因此您无法直接采集它. 您只能将连续操作设置为自动执行相应的鼠标操作,以便加载并采集所需的信息. 下来.
二,连续动作的动作类型
连续动作类型正在逐渐增加. 从采集器的V8.1.0版本开始,已经实现了10种类型,并且在后续版本中将继续添加新类型. 以下是每种操作类型的使用场景的简介:
1. 浮动: 将鼠标移到网页上的某些内容,将弹出一个窗口. 如果要在弹出窗口中采集信息,则必须设置浮动操作.
2. 单击: 如果要单击网页上的按钮或超链接,则必须设置单击操作.
3,双击: 类似于单击动作,双击鼠标.
4. 滚动: 如果要采集更多信息,则必须设置滚动操作来滚动屏幕,并为长页面甚至到最后加载的瀑布流网页加载尽可能多的信息.
5. 输入: 您要在搜索框中自动输入关键字以获取有关搜索结果的信息,例如,在百度上输入关键字进行搜索.
6. 选择: 用于单击网页上的下拉菜单,可以实现从指定选项中单击一个选项.
7,提交: 专门用于单击提交按钮,例如在百度上输入关键字后单击搜索按钮.
8,编码: 采集爬虫连接到编码平台,编码平台返回的验证码自动输入并提交,适用于需要输入验证码的网页.
9. 后退: 这是浏览器上的后退按钮. 阅读网页并想返回上一页后,请使用后退操作.
10. 滚轮: 前面有一个滚动屏幕,这意味着滚动网页右侧的滚动条以显示更多内容. 滚轮完全模拟鼠标滚轮的动作,将鼠标放在网页上,滚轮作用在哪个区域.
三,如何使用连续动作
连续动作的功能是模拟人们在浏览网页时的各种操作,从而加载所需的网页信息,并最终进行采集. 因此,通常可以将其分为两个主要操作步骤. 第一步是通过在规则中设置连续的动作来实现模拟人们浏览网页的操作. 第二步是采集数据,就像采集静态页面一样,直接为所需信息制定采集规则.
关键是第一步,要确定操作范围,要设置的操作类型,操作顺序以及要执行的规则数量. 您可以先在浏览器上浏览信息,整理操作范围,操作类型和顺序,然后设置连续操作的规则.
四个. 连续执行动作的循环描述
如上所述,在连续动作中,您只需要设置操作范围,动作类型和动作顺序,而无需关心动作执行的周期,因为集合采集器会自动执行该周期根据xpath锁定的操作对象的数量. 这里的循环是基于一种或多种动作类型的组合,因此不必担心如何设置循环.
在文章“如何将捕获的信息与操作步骤进行关联”中,实现了区域两级目录的自动单击和分类采集. 在这种情况下,连续动作中只需设置两个单击动作,第一个单击动作用于单击第一级目录,每个大区域都通过xpath锁定(紫色框,总共20个对象锁定),然后使用第二单击操作来单击第二级目录,并且每个分区都通过xpath锁定(红色框,总共78个对象被锁定),最后,采集器将自动单击第一和第二个目录,将这两个单击动作作为采集时的循环单位. 具体执行过程如下:
提示: 1: 如何确定几个连续动作的规则
关键是查看网页结构是否发生变化. 如果操作前后的网页结构发生更改,则必须分解规则. 多级规则由连续操作中指定的目标使用者名称串联连接.
提示2: 连续操作与爬虫路线之间的区别
连续动作的点击动作和履带路线的标记线索可以模拟鼠标的点击动作,但是连续动作的效果是在同一网页上多次单击,而履带的效果路线在网页上. 进行一次单击,通常用于翻页单击.
此外,不会立即单击爬网程序路径的下层线索,而是会捕获URL并将其传递到用于分层采集的下层规则,该规则适用于网页上具有独立URL的超链接. 如果超链接没有单独的URL,而是一段JavaScript代码,例如onclick =” javascript: void(0)”,那么在这种情况下,只能使用连续的点击操作.