无规则采集器列表算法(优采云采集排错教程本教程快速解决错误或者更好的和客服沟通)

优采云 发布时间: 2021-10-18 22:15

  无规则采集器列表算法(优采云采集排错教程本教程快速解决错误或者更好的和客服沟通)

  优采云采集故障排除教程

  本教程主要讲如果你在使用优采云采集时遇到一些问题,如何快速发现错误,解决错误或者如何理解错误,更好的与客服沟通的方法。

  优采云采集器 主要是利用技术定位和模拟用户浏览网页的操作来采集数据。用户无需了解网页架构、数据采集原理等技能,通过优采云 采集器即可形成优采云可理解的循环工作采集流程.

  如果出现采集模式不满足需求的情况,后面会有更详细的教程排查

  采集 过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、云端问题。当采集异常时,请先按照以下步骤排查错误,找出问题类型:

  (1) 手动执行一次规则:打开界面右上角的流程图,

  

  使用鼠标单击流程图中的规则。从上到下,每次点击下一步,都会有相应的响应。没有反应的步骤就是出现问题的步骤。

  当心:

  一种。单击并提取循环中的元素,手动选择循环中除第一个以外的内容,防止循环失败,仅单击提取循环中的第一个元素

  湾 执行完所有规则后执行下一步。网页未满载,即浏览器上的圆圈等待图标未消失时,观察网页内容是否满载。如果是满载,可以自行取消加载,然后再配置规则。

  (2)执行单机采集,并检查采集 没有采集数据的项目的结果。

  注意:最好把当前的URL加入到规则中,这样就有没有采集到数据中的项目。您可以复制URL并在浏览器中打开它以检查原因并确定错误。

  以下对可能出现的问题进行说明如下,供大家参考:

  (1)手动步骤无反应

  有两种可能的现象:

  1.步骤没有正常执行

  原因:规则问题、采集器问题、定位模拟问题

  解决方案:

  您可以进行故障排除,删除此步骤,然后重新添加。如果仍然无法执行,则排除规则问题。你可以:

  在浏览器中打开网页进行操作。如果在浏览器中可以执行某些滚动页面或单击页面,但在采集器 中不能执行,则是采集器 问题,原因是采集器 内置浏览器是Firefox。可能是后续版本内置浏览器的版本发生了变化,导致浏览器中可以实现的功能在采集器内置浏览器中无法执行。网页中的数据,智能采集翻页或滚动前的数据。

  排除采集器问题和规则问题后,可以尝试在与规则布局相同的页面重新添加步骤。如果在这样的页面上可以执行但是只有部分页面不能执行,就是定位模拟的问题,这个问题在时间跨度大的网站中经常存在。原因是网站的布局发生了变化,导致采集器定位所需的XPath发生了变化。请参考XPath章节修改规则或咨询客服,建议向客服说明网站 URL及错误原因,以便客服提供解决方案。

  

  2.点击循环或者采集只出现在第一个内容,点击第二个内容时还是采集到第一个内容

  原因:规则问题,定位模拟问题

  解决方案:

  检查循环中的第一项是否选中并点击了当前循环中设置的元素

  

  如果您仍然无法检查它,您可以:

  如果循环中还有其他循环,先参考问题1的*敏*感*词*把里面的内容去掉,把有问题的循环删除,再重新设置。如果移除的规则没有自动重置,则需要手动重置。如果可以使用循环,请将其删除。规则问题,如果不可能,就是定位模拟问题,可以:

  检查循环中提取数据的自定义数据字段,检查自定义定位元素方法,查看其中是否有相对Xpath路径。如果不存在,删除该字段,在外层高级选项中勾选use loop,重新添加,再次尝试,如果有响应,问题解决,如果还是不行,可以:

  参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。

  

  (2)单机采集无法采集数据

  有4种可能的原因:

  1.单机操作规则,显示采集数据采集前完成

  这种现象分为3种情况

  A、打开网页后直接显示采集完成

  原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,过一段时间加载优采云会跳过这一步,后续步骤认为内容尚未加载。没有数据,优采云结束任务,导致采集没有数据。

  解决方法:增加网页的超时时间,或者等待下一步设置执行,让网页有足够的时间加载。

  B. 网页一直在加载

  原因:网页问题,有些网页会加载很慢。我希望 采集 的数据不出现。

  解决方法:如果当前步骤是打开网页,可以增加网页的超时时间。如果是点击元素的步骤,并且采集的数据已经加载完毕,可以在点击元素的步骤中设置ajax延迟。点击后,加载了新的数据,网页的URL并没有改变为ajax链接。

  C、网页没有进入采集页面

  原因:这个问题经常出现在点击元素的步骤中。当某些网页有ajax链接时,需要根据点击位置来判断是否需要设置。如果不设置,当采集为单机设备时会一直卡在上一步,没有采集的数据。网页异步加载时,如果不设置ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。

  解决方法:在相应的步骤中设置ajax延迟,一般为2-3S。如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环到下一页,鼠标移动到元素上,这三步有ajax设置

  2.单机操作规则无法正常执行

  原因:规则问题或定位模拟问题

  解决方案:

  首先判断是否需要设置ajax,是否设置正确,如果不是ajax问题,可以:

  删除有问题的步骤并重新设置。如果问题解决了,那就是规则问题。如果问题没有解决,就是定位模拟问题。你可以:

  参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。

  3.单机操作规则,第一页或第一页数据正常,后面无法执行

  原因:规则问题-循环部分有问题

  解决方法:参考第二个内容的手动执行。

  4.单机操作规则,数据采集缺失或错误

  这种现象可以分为5种情况:

  A.有些字段没有数据

  原因:网页中的数据为空,模拟定位问题

  解决方案:

  检查没有字段的链接,然后用浏览器打开它。如果没有字段,则没有问题。如果浏览器打开有内容,就是模拟定位问题。你可以:

  参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。

  

  B. 采集 数据个数不对

  原因:规则问题-循环部分有问题

  解决方法:参考第二个内容的手动执行

  

  C.采集 数据乱序,没有对应信息

  原因:规则问题-提取步骤太多,网页加载时间过长,如果设置ajax忽略加载,可能会因为内容未加载或者加载不完整导致多次提取步骤出现一些错误。

  解决方案:将规则分为两步。如果采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集评论数据,后续导出的数据会在excel和数据库中进行匹配处理

  D. 字段出现在不同的位置

  原因:网页问题-Xpath更改

  解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。

  E. 数据重复

  原因:网页问题-Xpath定位问题,问题主要出现在翻页时,比如只有一两页循环,或者最后一页的下一页按钮仍然可以点击。

  解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。

  (3)单机采集正常,云采集无数据

  这种现象可以分为4种情况:

  1.网页问题-阻止IP的原因

  原因:大部分网站优采云有IP封锁措施可以解决,极少数网站采取极其严格的IP封锁措施,这部分会导致云采集@ >采集 @>没有数据。

  解决方案:

  如果是独立的采集,可以使用代理IP功能。具体操作请参考代理IP教程。

  如果是云端采集,可以给任务分配多个节点,让多个节点空闲,避免任务在同一个云端,同一个IP采集。

  2.云问题-云服务器带宽小

  原因:云端带宽小,导致本地网站打开慢,在云端打开时间较长。一旦超时,将不会打开网站或无法加载数据,因此跳过此步骤。

  解决方法:将打开URL的超时时间或下一步前的等待时间设置得更长一些。

  3.规则问题-增量采集

  原因:规则设置增量采集,增量采集根据URL判断采集是否通过,部分网页使用增量采集会导致跳过增量判断。这一页。

  解决方法:关闭增量采集。

  4.规则问题-禁止浏览器加载图片和云采集不要拆分任务

  原因:很少有网页不能勾选禁止浏览器加载图片和云采集不拆分任务

  解决方法:取消勾选相关选项。

  如有更多问题,欢迎您在官网或客服反馈。感谢您的支持。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线