如何对采集规则进行故障排除?
优采云 发布时间: 2020-08-07 01:25教程中有详细的故障排除图形教程
在这里,我主要讨论独立采集中存在问题时的故障排除方法. 独立采集的问题主要是因为规则中的某个步骤未执行,网页未完全加载或该步骤的高级选项设置不正确.
官方网站提供了非常有用的故障排除教程. 本教程详细说明了如何在优采云中配置规则时手动执行每个步骤以进行故障排除. 这是故障排除中非常重要的一步,因此在此不再赘述. 您可以直接进入教程中心并搜索“规则制定和故障排除教程”
优采云采集数据的原理:
优采云软件主要模仿用户浏览网页的操作,例如打开网页,单击元素,输入文本,切换下拉选项以及将鼠标移至元素. 这些我们通常会在网上浏览以进行相应的操作.
示例:
进入优采云官方网站界面(打开网页),将鼠标放在产品简介上(将鼠标移到元素上),将弹出一个小黑框,将鼠标移开,然后将黑框隐. 然后单击它旁边的教程中心(单击元素)进入教程中心页面,有一个搜索框,输入“规则制定和故障排除教程”(输入文本).
优采云又循环了一大步. 这也是我们采集大量数据的主要步骤.
循环翻页,循环单击元素,循环输入文本,循环打开网页
优采云主要基于xpath定位元素,然后执行相应的步骤.
排除规则故障的主要思想
手动执行基本上没有问题(表明过程基本上没有问题)之后,执行单机采集.
然后在独立获取界面中观察网页更改,以查看网页是否按照每个步骤执行. 如果未执行步骤,则说明该步骤存在问题. 例如,没有单击到详细信息页面,也没有循环翻页. 重新编辑规则,然后重新调试规则中的相应步骤.
以下是基于单机采集中的问题的解释(5):
1. 独立运行,无法采集数据
(1)打开网页后,直接提示采集已完成
主要原因: 某些网站加载缓慢. 在网页完全加载之前,优采云将执行下一步. 如果无法找到对应的位置,则无法执行该步骤,最终导致无法提取到数据.
解决方案: 您可以增加网页的超时时间,或者等待设置下一步. 允许页面加载足够长的时间.
(2)网页已加载
主要原因: 主要是由于网站问题,某些网站加载缓慢. 您想要采集的数据不会出现.
解决方案: 如果当前步骤是打开网页,则可以增加网页的超时时间. 如果是单击元素的步骤,并且已经加载了要采集的数据,则可以在单击元素的步骤中设置ajax延迟,
(3)网页未进入采集页面
此问题通常发生在点击元素步骤中. 当某些网页中有ajax链接时,有必要根据点击位置确定是否需要设置它. 如果未设置,它将始终卡在独立采集过程中的上一步中,并且无法采集任何数据.
主要原因: 当异步加载网页时,如果未设置ajax延迟,则通常将无法正确执行该操作,从而导致该规则无法继续进行下一步,并且无法处理任何数据提取.
解决方案: 在相应的步骤中设置ajax延迟,通常为2-3S,如果网页加载时间较长,则可以适当增加延迟时间. 单击该元素,循环到下一页,将鼠标移到该元素,这三个步骤中都有ajax设置
示例: 下图是在京东网站下采集手机产品的评论数据. 您需要单击产品评论以进入相应的评论页面. 在独立计算机上运行时,网页仍停留在评论页面上,并且没有评论数据出现. 原因是单击元素时未设置ajax延迟,这导致网页无法进入相应的采集界面.
2. 独立操作,缺少数据采集
(1)某些字段中没有数据
主要原因: 在单台计算机上进行采集时,发现某些字段为空. 此时,您应该找到相应的采集页面以检查要采集的数据是否存在. 有时并非每个网页都收录所有字段信息. 如果不是,则该字段为空是正常的. 如果是这样,则基本上是xpath定位问题. 此时,您需要修改xpath以准确定位相应的字段.
解决方案: 重新打开规则并手动执行验证. 如果需要修改xpath,可以找到xpath教程.
示例: 在下图中,约会次数和约会时间为空值. 重新打开规则并手动执行. 发现该页面可以采集数据(图2). 这意味着这主要是一个网页加载问题,可以在下一步之前设置等待时间. 第二个数据为空,因为第二个详细信息页面上没有数据,这很正常.
(2)采集的数据数量不正确
采集的数据数量不正确,通常是由于翻页或加载网页引起的.
某些网页数据需要向下滚动才能加载数据. 如果在打开网页时没有设置足够的滚动词,则从网页加载的数据量将不如手动执行规则时那么大.
如果页面翻转不正确,则无法采集某些页面上的数据. 例如,发生不规则的翻页,导致某些页面无法打开,并且无法采集数据.
主要解决方案: 如果是翻页问题,则修改翻页周期的xpath;如果是网页加载问题,请在打开网页的高级选项中设置滚动次数
示例: 制定规则时,有80个循环选项,但在单个计算机集合中仅采集了16个项目. 主要原因是未将网页设置为向下滚动以加载,导致加载的项目较少.
3. 采集的数据乱序,没有对应的信息
(1)多个数据提取步骤