优采云——基本排错教程

优采云 发布时间: 2020-08-10 06:42

  优采云采集排错教程

  本教程主要讲的是假如你在使用优采云采集时碰到一些问题,如何快速找出错误、解决错误或则怎么了解错误、更好的和客服沟通的技巧。

  优采云采集器主要通过技术将用户浏览网页的操作进行定位和模拟来搜集数据,用户不需要明白网页构架、数据采集原理等技能,通过优采云采集器就可以构成优采云可以读懂的、可以循环工作的采集流程。

  如果存在采集模式不满足需求的情况,排错旁边有愈发详尽的教程

  采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当采集出现异常时,请先根据如下流程进行错误排查,寻找问题类型:

  (1)手动执行一遍规则:打开界面右上角的流程图,

  

  用键盘点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。

  注意点:

  a.循环内的点击以及提取元素要自动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素

  b.所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。

  (2)进行单机采集,查看采集结果中未采集到数据的项目。

  注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看缘由,确定错误。

  下面分别将可能出现问题的现象表述如下,供你参考:

  (1)手动执行步骤无反应

  可能现象有两种:

  1.未正常执行步骤

  原因:规则问题、采集器问题、定位模拟问题

  解决方式:

  可进行排查,删除该步骤,重新添加一遍,如果还是未能执行,则排除了规则问题,你可以:

  将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在此后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中难以执行,该类网页中的数据,智能采集翻页或滚动之前的数据。

  排除了采集器问题及规则问题后,你可以尝试在与制做规则时同样布局的页面上进行重新添加步骤,如果在这样的页面可以执行而只在部份页面难以执行,则是定位模拟问题,该问题常常存在于时间跨径较大的网站,原因是网站布局发生变化,导致采集器定位所需的XPath发生变化,请参考XPath章节更改规则或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

  

  2.循环内的点击或采集只发生于第一条内容,点击第二条内容仍然采集到第一条内容时

  原因:规则问题,定位模拟问题

  解决方式:

  查看循环当中的第一项是否勾选点击当前循环中设置的元素这一项

  

  如果勾选了仍然不可以,你可以:

  如果循环内有其他循环,先参考上问题1的动图将上面的内容移出去,删除有问题的循环,重新设置一次,如果移出去的规则没有手动复位须要自动复位,如果循环可以使用则排除规则问题,如果不可以,则是定位模拟问题,你可以:

  查看循环中提取数据的自定义数据数组,查看自定义定位元素形式,看上面是否存在相对Xpath路径,如果不存在,则删掉数组,勾选内层中级选项中的使用循环,并重新添加,再次尝试假如有反应,则问题得到解决,如果仍然不行,你可以:

  参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

  

  (2)单机采集采不到数据

  可能缘由有4种:

  1.单机运行规则,数据还没采完便显示采集完成

  此种现象分为3种情况

  A.打开网页后直接显示采集完成

  原因:网页问题,第一个网页加载过慢,优采云会等待一段时间,超出一定时间还在加载优采云就会跳过了这个步骤,后续步骤以为内容未加载下来采不到数据,优采云就结束了任务,造成采集不到数据。

  解决方式:将网页的超时时间加长,或者在下一个步骤设置执行前等待,让网页有足够长的时间加载。

  B.网页仍然处于加载状态

  原因:网页问题,有些网页的加载会太慢。想要采集的数据没有出现。

  解决方式:如果当前步骤是打开网页步骤,可以将网页的超时时间加长。如果是点击元素步骤,而且要采集的数据早已加载下来的时侯,可以在点击元素步骤设置ajax延时,点击了以后有新数据加载下来而网页网址没有变化的为ajax链接,

  C.网页没有步入采集页面

  原因:该问题往往是出现在点击元素步骤。有些网页中富含ajax链接时,根据点击位置判定是否须要设置。如果没有设置,在单机采集时会仍然卡在前一个步骤,采集不到数据。当网页为异步加载时,没有设置ajax延时的话,操作通常不会正确执行,导致规则难以进行下一步,提取不到数据。

  解决方式:在相应步骤设置ajax延时,一般是2-3S,如果网页加载时间较长,可以适当降低延时时长。点击元素,循环下一页、移动滑鼠到元素上,这三个步骤中都有ajax设置

  2.单机运行规则,无法正常执行

  原因:规则问题或定位模拟问题

  解决方式:

  首先判定ajax是否须要设置以及是否设置正确,如果不是ajax问题,你可以:

  将出现问题的步骤删掉并重新设置一遍,如果问题解决则为规则问题,如果问题没有解决,则为定位模拟问题,你可以:

  参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

  3.单机运行规则,第一条或第一页数据正常,后面未能执行

  原因:规则问题-循环部份出现了问题

  解决方式:参考自动执行第二条内容。

  4.单机运行规则,漏采或则错采数据

  此种现象分5种情况:

  A.部分数组没有数据

  原因:网页内该项数据为空、模拟定位问题

  解决方式:

  查看没有数组的链接,用浏览器打开假如确实没有数组,则没有问题,如果浏览器打开有内容,则为模拟定位问题,你可以:

  参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

  

  B.采集数据数目不对

  原因:规则问题-循环部份出现了问题

  解决方式:参考自动执行第二条内容

  

  C.采集数据错乱,不是对应信息

  原因:规则问题-提取步骤过多,网页加载时间过长,如果设置ajax去忽视加载就有可能导致多个提取步骤中的个别因内容没加载下来或加载不完全出错。

  解决方式:将规则分为两步,假如采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集 评论数据,后续将导入数据在excel、数据库中匹配处理

  D.字段出现在不同位置

  原因:网页问题-Xpath变化

  解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

  E.数据重复

  原因:网页问题-Xpath定位问题,问题主要出现在翻页处,比如只在一二页循环,或者最后一页的下一页按键仍然可以点击。

  解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

  (3)单机采集正常,云采集没有数据

  此种现象分4种情况:

  1.网页问题-封IP缘由

  原因:大多数存在封IP举措的网站优采云可以解决,极少数网站采用非常严格的封IP举措,这部份会导致云采集采集不到数据。

  解决方式:

  如果是单机采集可以使用代理IP功能,具体操作查看代理IP教程。

  如果是云采集可以分配给任务多个节点,并让多个节点空闲,避免任务在同一个云端同一个IP上采集。

  2.云端问题-云服务器带宽较小

  原因:云端带宽较小,造成本地打开平缓的网站在云端打开愈发漫长,一旦超时都会打不开网站或者加载不下来数据导致跳过此步骤。

  解决方式:把打开网址的超时时间或则下一步的执行前等待时间设置久一些。

  3.规则问题-增量采集

  原因:规则设置了增量采集,增量采集根据URL判定是否采集过,部分网页使用增量采集会导致增量判定失误跳过了该网页。

  解决方式:关闭增量采集。

  4.规则问题-禁止浏览器加载图片和云采集不分拆任务

  原因:存在极少数网页不可以勾选严禁浏览器加载图片与云采集不分拆任务

  解决方式:取消勾选相关选项。

  如果出现更多问题,欢迎在官网或则向客服进行反馈,谢谢您的支持。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线