采集自动组合(网页结构没有变化的规划采集流程》介绍及注意事项)
优采云 发布时间: 2021-09-18 00:22采集自动组合(网页结构没有变化的规划采集流程》介绍及注意事项)
**注意:**如果在执行操作前后网页结构没有改变,则可以使用规则来完成该操作;如果网页结构在前后发生变化,则必须通过两条或两条以上的规则来完成;此外,如果涉及翻页,还应将其分为两个或两个以上的规则。请参考文章planning采集流程,了解持续行动所需的规则数量
一、建立一级主题,捕捉目标信息
建立第一级主题的规则,并将所需信息映射到排序框。建议在内容映射后映射定位标记,提高定位精度和规则适应性
**注意:**如果设置了连续操作规则,则可能不会生成排序规则框。例如,方案2的一级主题可能不构建排序框,但排序框用于抓取一些数据(选择将在网页上显示的信息)来判断是否执行采集,否则网页可能会被省略
二、set连续动作
单击“新建”按钮创建新操作。每个动作的设置方法相同。基本操作如下:
2.1输入目标主题的名称
连续操作指向同一目标主题。如果有多个操作,并且您希望指向不同的主题,请将它们拆分为多个规则以分别设置连续操作
2.2选择动作类型
此案例是一个单击操作。不同行为的适用范围不同。请根据实际操作选择动作类型
2.3将定位到动作对象的XPath填充到定位表达式中
2.4输入操作名称
告诉自己此操作的目的,以便以后可以修改它
2.5高级设置
首先不能设置它。稍后调试连续操作时将使用它,这可以扩展操作的应用范围。如果需要捕获操作对象的信息,可以使用XPath在高级设置的内容表达式中查找操作对象的信息。请根据需要重新设置
**注意:**是否正确选择了操作类型以及XPath位置是否准确将决定是否可以成功执行连续操作。XPath是用于定位HTML节点的标准语言。在使用连续动作功能之前,请先掌握XPath
根据人员的操作步骤,我们还需要选择版本和购买方式1、purchase method 2。因此,我们需要继续创造三个新的行动,并重复上述步骤
三、调试规则
完成上述步骤后,单击保存规则,然后单击爬升数据按钮尝试抓取。查找采集报告错误:无法找到节点***,请观察浏览器窗口,查看单击第一步时,未加载其他信息。加载信息时,发现点击购买方式2后,无法返回到点击第四步的页面,导致连续动作失败
鉴于上述情况,我们的解决方案是删除步骤4。因为无论您是否点击购买方式2,都不会影响商品价格。因此,可以删除不必要和干扰的操作步骤
修改后重试。将提取的XML转换为excel后,可以看到价格和累计评估数据缺失或错误。这是因为网页太大,加载速度慢。单击后,数据必须等待一定时间才能加载
为了捕获所有数据,您需要延长等待时间,分别为每个操作设置延迟,然后单击操作步骤->;高级设置->;额外延迟,以秒为单位输入正整数。请根据实际调试情况输入时间
此外,如果它不是顶部窗口,采集它将重复单击。这是因为京东的网页上有反爬行措施,当前窗口的操作将生效。因此,要检查高级设置中可见的窗口,采集窗口将放置在顶部。请根据实际情况进行设置
四、如何将捕获的信息与行动步骤逐一匹配
如果要将捕获的信息与动作步骤逐一匹配,则必须提取动作对象的信息。有两种方法:
4.1使用XPath在“连续动作的高级设置”的内容表达式中查找动作对象的信息节点
当定位表达式定位到动作对象的整个操作范围时,它还包括自己的信息。因此,内容表达式只需从定位的action对象开始,继续定位其信息采集即可将此步骤的动作信息记录在actionvalue中,对应actionno,并记录此步骤的执行次数
4.2在排序框中获取动作对象的信息。在这里,您还需要使用XPath来定位它
执行action对象时,其DOM结构会发生变化。查找网页更改的结构特征,使用XPath准确定位节点,并在验证后设置自定义XPath
以上是用连续动作模拟手动操作的*敏*感*词*。虽然这个过程很麻烦,但只要你细心和耐心,你最终可以征服你想要攀登的网页