优采云采集过程中常出现的问题以及解决方法本教程
优采云 发布时间: 2021-07-28 02:21优采云采集过程中常出现的问题以及解决方法本教程
优采云采集经常出现的问题及解决方法本教程主要讲如何快速找出错误,解决错误或者在使用优采云采集时遇到问题如何理解@错误,更好与客服沟通的方式。 优采云采集器主要是利用技术定位和模拟用户浏览网页的操作来采集数据。用户无需了解网页结构、数据采集原理等技巧,优采云采集器可以由优采云采集器采集流程组成,可以理解,可以循环工作如果出现采集模式不能满足您需求的情况,后面会有更详细的排查教程。 采集过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题和云问题。 采集异常时,请按照以下流程进行排查和查找问题类型:1、手动执行规则:打开界面右上角的流程图,点击流程图中的规则鼠标,从上到下,每次点击下一步都会有相应的反应,没有反应的就是出现问题的那一步。注意:1)循环中点击提取元素时,手动选择循环中除第一个以外的内容,防止循环失败。只点击提取循环中的第一个元素2)所有规则在每一步执行完后执行下一步,网页未完全加载,即浏览器上的圆圈等待图标没有消失时,观察网页内容是否满载,如果满载,可以自行取消加载,然后配置规则。 2、单独进行采集,查看采集结果中没有采集收到数据的item。
注意:最好把当前的URL加入到规则中,这样就有没有采集到数据中的项目,可以复制URL在浏览器中打开查看原因并确定错误。以下是可能出现的问题描述,供大家参考:1、手动执行步骤时无响应。有两种可能的现象:1)无法正常执行步骤。原因:规则问题,采集器问题,定位模拟问题解决方法:可以排查,删除这一步,重新添加,如果还是不能执行,则排除规则问题,可以:打开网页中的浏览器进行操作,如果浏览器中有些滚动或者点击翻页可以执行但是采集器不能执行,是采集器的问题,原因是采集器inlaid浏览器是火狐浏览器,可能是后续版本内嵌浏览器版本发生了变化,导致浏览器可以实现的功能在采集器inlaid浏览器中无法执行。此类网页中的数据可以在翻页或滚动数据之前智能采集。排除采集器问题和规则问题后,您可以尝试在与制定规则时相同的页面布局上重新添加步骤。如果可以在这样的页面上执行,但不能在部分页面上执行,就是定位模拟问题。这个问题在网站中经常存在,时间跨度大。原因是网站的布局发生了变化,导致采集器所需的XPath发生了变化。请参考XPath章节修改规则或联系客服。建议向客服说明网站网址及错误原因,方便客服提供解决方案。 优采云采集器排错- 图12)循环中的点击或者采集只发生在第一个内容,第二个内容还是采集到第一个内容。原因:规则问题,定位模拟问题解决方法:检查循环中的第一项是否被选中。单击当前循环中的元素集。如果勾选了这个项目,还是不行。您可以: 如果循环中还有其他循环,请参考上面的问题 1。移动*敏*感*词*内的内容,删除有问题的循环,然后再次重置。如果移除的规则没有自动重置,则需要手动重置。如果可以使用循环,则排除问题,如果不能,则为定位模拟问题。可以:循环中勾选提取数据的自定义数据字段,查看自定义定位元素方法,查看里面是否有相对的Xpath路径,如果不存在,删除该字段,查看外层的use循环高级选项,并重新启动添加,再试一次。如果有响应,问题就解决了。如果还是不行,您可以: 参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站URL及错误原因,以便客服给出解决方案。 .
优采云采集器排错-图22、单机采集不采集数据有四种可能的原因:1)单机操作规则,采集数据前会显示数据采集complete this 这种现象可以分为3种情况 ①打开网页后,直接显示采集。完成原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,优采云会跳过这一步后,后续步骤以为内容没有加载,数据无法采集,优采云结束任务,导致采集无法获取数据。解决方法:增加网页的超时时间,或者等待下一步设置执行,让网页有足够的时间加载。 优采云采集器排错-图3优采云采集器排错-图4② 网页一直处于加载状态。原因:网页有问题,部分网页加载会很慢。我不希望采集 的数据出现。解决方法:如果当前步骤是打开网页,可以增加网页的超时时间。如果是点击元素的步骤,并且采集的数据已经加载完毕,可以在点击元素的步骤中设置ajax延迟。点击后加载了新数据,网页URL没有改变为ajax链接,优采云采集器排错-图5③网页没有进入采集页面。原因:这个问题经常出现在点击元素的步骤中。当某些网页有ajax链接时,需要根据点击位置来判断是否需要设置。如果不设置,在单机采集中总是卡在上一步,采集找不到数据。网页异步加载时,如果不设置ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。
<p>解决方法:在相应的步骤中设置ajax延迟,一般为2-3S,如果网页加载时间较长,可以适当增加延迟时间。单击元素,循环到下一页,然后将鼠标移动到元素。在这三步中,有ajax设置2)单机操作规则,无法正常执行。原因:规则问题或定位模拟问题。解决方法:首先判断是否需要设置ajax以及设置是否正确,如果不是ajax问题,可以:删除出现问题的步骤,重新设置,如果问题解决,就是规则问题,如果问题没有解决,就是定位模拟问题,可以:参考Xpath章节。修改网页Xpath或咨询客服,建议向客服说明网站网址及错误原因,以便客服提供解决方案。 3)单机操作规则,第一页或第一页数据正常,后面不能执行。原因:规则问题——循环部分有问题。解决方法:参考第二个内容的手动执行。 4)单机操作规则,数据采集缺失或错误分为5种情况: ①部分字段无数据。原因:网页数据为空,模拟定位问题。解决方法:检查没有字段的链接,浏览如果浏览器打开时没有字段,则没有问题。如果浏览器打开有内容,就是模拟定位问题。您可以:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址和错误原因。 ,方便客服给出解决方案。 ②采集数据个数不对。原因:规则问题——循环部分有问题。解决方法:手动参考第二个内容。 ③ 采集Data 乱序,不是对应的信息。原因:规则问题-提取步骤太多,网页加载时间太长,如果设置ajax忽略加载,可能会导致多次提取步骤出现一些错误,因为内容没有加载或者加载不完全错误。