云端内容采集(优采云采集器如何快速找出错误、更好和客服沟通的方法)

优采云 发布时间: 2021-09-06 08:13

  云端内容采集(优采云采集器如何快速找出错误、更好和客服沟通的方法)

  本教程主要讲如何快速找出错误、解决错误或如何理解错误,以及在使用优采云采集时遇到问题更好地与客服沟通。

  优采云采集器主要利用技术定位和模拟用户浏览网页的操作来采集数据。用户无需了解网页架构、数据采集原理等技能,只需通过优采云采集器就构成了优采云能够理解并且可以循环工作的采集流程。

  如果出现采集模式不能满足需求的情况,排查后会有更详细的教程。

  采集 过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题和云问题。当采集出现异常时,请先按照以下步骤进行排查和查找问题类型:

  (1)手动执行规则:

  使用鼠标点击流程图中的规则。从上到下,每次点击下一步,都会有相应的响应。没有反应的步骤就是出现问题的步骤。

  注意:

  一个。单击并提取循环中的元素,手动选择循环中除第一个以外的内容,防止循环失败,仅单击提取循环中的第一个元素

  B.所有的规则都在每一步执行之后执行,然后再执行下一步。网页未完全加载,即浏览器上的圆圈等待图标没有消失时,观察网页内容是否加载完毕。如果完全加载,可以自行取消加载,然后配置规则。

  (2)是单机采集,查看没有采集项的采集结果。

  注意:最好把当前的URL加入到规则中,这样如果有没有采集到数据中的项目,可以复制URL在浏览器中打开查看原因和确定错误。

  以下可能出现的问题描述如下,供大家参考:

  (1)手动执行步骤无响应

  有两种可能的现象:

  1.没有正常执行步骤

  原因:规则问题、采集器问题、定位模拟问题

  解决方案:

  可以检查,删除步骤,重新添加,如果还是不能执行,排除规则问题,可以:

  在浏览器中打开网页进行操作。如果某些滚动或点击翻页在浏览器中可以执行,但在采集器中无法执行,则是采集器问题,原因是采集器浏览器是火狐浏览器。可能是后续版本内嵌浏览器的版本发生了变化,导致在浏览器中可以实现的功能在采集器内嵌浏览器中无法执行。这类网页中的数据,Smart采集翻页或滚动上一个数据。

  排除采集器问题和规则问题后,您可以尝试在与制定规则时布局相同的页面上重新添加步骤。如果在这样的页面上可以执行,但只有部分页面不能执行,就是定位模拟问题。这个问题在网站中经常存在,时间跨度大。原因是网站的布局发生了变化,导致采集器所需的XPath发生了变化。请参考XPath章节修改规则或咨询客服。建议向客服说明网站网址及错误原因,以便客服给出解决方案。

  

  2.点击循环或者采集只出现在第一个内容,点击第二个内容还是采集到第一个内容

  原因:规则问题,定位模拟问题

  解决方案:

  检查拼接循环项xpath是否在循环第一项中检查:

  

  如果您仍然无法检查,您可以:

  如果循环中还有其他循环,先参考问题1的*敏*感*词*把里面的内容去掉,把有问题的循环删除,再重新设置。如果移除的规则没有自动重置,则需要手动重置。如果循环OK就用它来排除问题,如果不是就是定位模拟问题,可以:

  

  查看循环中提取数据的自定义数据字段,查看自定义定位元素方法,查看其中是否有相对Xpath路径,如果不存在,删除该字段,查看循环中的use循环外部高级选项,并重新启动添加,再试一次。如果有响应,问题就解决了,如果还是不行,你可以:

  参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  

  (2)单机采集无数据

  有 4 个可能的原因:

  1.单机操作规则,采集数据前会显示采集complete

  这种现象分为3种情况

  A.打开网页后直接显示采集complete

  原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,如果过了一段时间还在加载优采云会跳过这一步,后续步骤认为内容尚未加载。说到数据,优采云结束任务,导致采集没有数据。

  解决方法:增加网页的超时时间,或者等待下一步设置执行,让网页有足够的时间加载。

  

  B.网页一直在加载

  原因:网页问题,部分网页加载缓慢。我不希望采集 的数据出现。

  解决方法:如果当前步骤是打开网页,可以增加网页的超时时间。如果是点击元素的步骤,并且采集的数据已经加载完毕,可以在点击元素的步骤中设置ajax延迟。点击后,加载了新数据,网页网址没有变化,是ajax链接,

  C.网页没有进入采集page

  原因:这个问题经常出现在点击元素的步骤中。当某些网页有ajax链接时,需要根据点击位置来判断是否需要设置。如果不设置,在单机采集中总是卡在上一步,采集找不到数据。网页异步加载时,如果不设置ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。

  解决方法:在相应的步骤中设置ajax延迟,一般为2-3S,如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环到下一页,鼠标移动到元素上,这三步有ajax设置

  

  2.单机操作规则无法正常执行

  原因:规则问题或定位模拟问题

  解决方案:

  首先判断是否需要设置ajax以及是否设置正确,如果不是ajax问题,可以:

  删除有问题的步骤并重新设置。如果问题解决了,那就是规则问题。如果问题没有解决,就是定位模拟问题。您可以:

  参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  3.单机操作规则,第一页或第一页数据正常,后面无法执行

  原因:规则问题-循环部分有问题

  解决方法:参考第二个内容的手动执行。

  4.单机操作规则,数据采集缺失或错误

  这种现象有5种情况:

  A.部分字段没有数据

  原因:网页数据为空,模拟定位问题

  解决方案:

  检查没有字段的链接并使用浏览器打开它们。如果确实没有字段,则没有问题。如果浏览器打开有内容,就是模拟定位问题。您可以:

  参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  B.采集数据个数不对

  原因:规则问题-循环部分有问题

  解决方法:参考第二个内容的手动执行

  C.采集Data 乱序,没有对应信息

  原因:规则问题-提取步骤太多,网页加载时间过长,如果设置ajax忽略加载,可能会导致多次提取步骤出现一些错误,因为内容没有加载或者加载不完全错误.

  解决方案:将规则分为两步。如果采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步循环URL采集评论数据,后续导出的数据在excel和数据库中匹配和处理。

  D.字段出现在不同的地方

  原因:网页问题-Xpath更改

  解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  E。重复数据

  原因:网页问题-Xpath定位问题。问题主要出现在翻页时,比如只有一两页循环,或者最后一页的下一页按钮仍然可以点击。

  解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  (3)单机采集正常,cloud采集无数据

  这种现象有 4 种类型:

  1.网页问题-封IP原因

  原因:大部分网站优采云采用IP封堵措施可以解决,极少数网站采取极其严格的IP封堵措施,会导致cloud采集采集丢失数据。

  解决方案:

  如果是单机采集,可以使用代理IP功能。具体操作请参考代理IP教程。

  如果是云采集,可以给任务分配多个节点,让多个节点空闲,避免任务在同一个云,同一个IP采集。

  2.cloud 问题-云服务器带宽小

  原因:云的带宽较小,导致网站在云中的慢开时间较长。一旦超时,网站将无法打开或无法加载数据,因此跳过此步骤。

  解决方法:将打开网址的超时时间或下一步前的等待时间设置得更长。

  3.rule problem-increment采集

  原因:规则设置增量采集,增量采集根据URL判断采集是否通过。部分网页使用增量采集会导致增量判断错误跳过网页。

  解决方案:关闭增量采集。

  4.Rule issue-禁止浏览器加载图片和云采集不要拆分任务

  原因:很少有网页不能勾选禁止浏览器加载图片和云采集不要拆分任务

  解决方案:取消选中相关选项。

  如有更多问题,请到官网或客服反馈。感谢您的支持。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线