优采云云采集服务平台本教程:错误、解决错误
优采云 发布时间: 2021-07-21 04:16优采云云采集服务平台本教程:错误、解决错误
优采云云采集服务平台优采云采集 过程中常见问题及解决方法 本教程主要讲在使用优采云采集过程中遇到问题如何快速找出错误,解决错误或如何理解错误,以及与客服沟通的更好方式。 优采云采集器主要是利用技术定位和模拟用户浏览网页的操作来采集数据。用户不需要了解网页结构、数据采集原理等技巧,通过优采云采集器采集流程,k6@可以理解,可以循环工作。如果出现采集模式不能满足需求的情况,故障排除后有更详细的教程。 采集过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题和云问题。当采集异常时,请按照以下流程进行排查和查找问题类型:1、手劢再次执行规则:打开界面右上角的流程图,点击规则中的规则流程图,从上到下,每次点击下一步都会有对应的响应,没有响应的就是出现问题的那一步。注:1)点击并提取循环中的元素手动选择循环中第一个以外的内容,防止循环失败,只能点击提取循环中的第一个元素优采云云采集服务平台2)所有规则在执行下一步之前先执行每一步。网页未满载,即浏览器上的圆形等待图标没有消失时,观察网页内容是否满载。如果是满载,可以自行取消加载,然后再配置规则。
2、迚行单机采集,查看没有采集项的采集结果。注意:最好把当前的URL加入到规则中,这样如果有没有采集到数据中的项目,可以复制URL在浏览器中打开查看原因,判断错误以下对可能出现的问题描述如下,供大家参考: 1、手劢 执行步骤无反应 可能的现象有两种: 1)无法正常执行步骤。原因:规则问题、采集器问题、定位模拟问题解决方法:可以进行故障排除,删除这一步,重新添加。如果仍然无法执行,则排除规则问题。您可以: 在浏览器中打开网页进行操作,如果有一些滚动或点击翻页 页面可以在浏览器中执行,但采集器无法执行。这是采集器 问题。原因是采集器内部浏览器是火狐浏览器。可能是内部浏览器版本出现在后续版本中。改动导致浏览器中可以实现的功能无法在采集器内置浏览器中执行。此类网页中的数据为智能采集翻优采云云采集服务平台页面或之前版本数据。排除采集器问题和规则问题后,可以尝试在不做规则的情况下在同一个布局页面重新添加步骤。如果在这样的页面上可以执行但只有部分页面不能执行,就是定位模拟问题,这个问题在网站时间跨度大的情况下经常存在。原因是网站的布局发生了变化,导致采集器所需的XPath发生了变化。请参考XPath章节修改规则或咨询客服。建议向客服说明网站 URL及错误原因,方便客服给出解决方案。
优采云采集器排错-图1 2)循环或采集中的点击只发生在第一个内容,第二个内容仍然是采集到第一个内容。原因:规则问题,定位模拟问题优采云云采集服务平台解决方法:检查循环中的第一项是否被选中。单击当前循环中的元素集。如果勾选了这个项目,还是不行。您可以: 如果循环中还有其他循环,先参考问题1的*敏*感*词*图去掉里面的内容,删除有问题的循环,重新设置。如果移除的规则没有自动重置,则需要手动重置。如果循环可以使用,则排除问题。如果不是,则是定位模拟问题。您可以: 查看循环中提取数据的自定义数据字段,查看自定义定位元素方法,查看其中是否有相对Xpath路径。如果不存在,删除该字段,在外部高级选项中查看使用周期,重新添加,重试。如果有响应,问题就解决了,如果还是不行,可以:参考Xpath章节修改网页Xpath或者咨询客服。建议向客服说明网站网址及错误原因,以便客服给出解决方案。 优采云采集器排错-图2 优采云云采集服务平台2、单机采集采不到数据 数据有4种可能原因1)单机操作规则,数据会在采集数据之前显示采集Complete 这种现象分为3种情况。打开网页后,直接显示采集。完成原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,一段时间后仍然会加载优采云此步骤将被跳过。在后续步骤中,如果没有加载内容,也没有采集到数据,优采云结束任务,导致采集没有获取到数据。
解决方法:增加网页的超时时间,或者等待下一步设置执行,让网页有足够的时间加载。 优采云采集器排错-图3 优采云云采集服务平台优采云采集器排错-图4 网页一直处于加载状态。原因:网页有问题,部分网页加载会很慢。我不希望采集 的数据出现。解决方法:如果当前步骤是打开网页,可以增加网页的超时时间。如果是点击元素的步骤,并且采集的数据已经加载完毕,可以在点击元素的步骤中设置ajax延迟。点击后加载了新数据,网页URL没有改变为ajax链接,优采云Cloud采集服务平台优采云采集器排错-图5 网页没有进入采集页面原因:这个问题经常出现在点击元素的步骤。当某些网页中存在ajax链接时,需要根据点击位置来判断是否需要设置。如果不设置,在单机采集中总是卡在上一步,采集拿不到数据。当网页异步加载且未设置ajax延迟时,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。解决方法:在相应的步骤中设置ajax延迟,一般为2-3S,如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环到下一页,鼠标移动到元素,在这三步中,有ajax设置优采云云采集服务平台2)单机操作规则,无法正常执行原因:规则问题或定位模拟问题解决方法:首先判断是否需要设置ajax以及是否设置正确,如果不是ajax问题,可以删除有问题的步骤,重新设置,如果问题解决了,就是规则问题,如果问题没有解决,就是定位模拟问题,可以:参考Xpath章节修改网页Xpath或者咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。
3)单机操作规则,第一页或第一页数据正常,后面无法执行。原因:规则问题——循环部分有问题。解决方法:参考第二个内容的手动执行。 4)单机操作规则,数据采集缺失或错误,此现象可分为5种情况:优采云云采集服务平台部分领域无数据。原因:网页数据为空,解决了模拟定位问题。检查没有字段的链接并使用浏览器打开它们。如果确实没有字段,则没有问题。如果浏览器打开有内容,就是模拟定位问题。您可以: 参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服给出解决方案。 采集数据个数不对。原因:规则问题——循环部分有问题。解决方法:参考手册执行第二个内容采集Data 乱序,不是对应的信息。原因:规则问题-提取步骤太多,网页加载时间过长,如果设置ajax忽略加载,可能会导致多次提取步骤中的部分内容加载不出来或者加载不出来完全错误。解决方案:将规则分为两步。如果采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集评论数据,后面会导出数据进行匹配处理在excel和数据库中。该字段出现在不同位置优采云云采集服务平台原因:网页问题-Xpath更改解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址和错误原因。方便客服给出解决方案。
数据重复的原因:网页问题-Xpath定位问题,问题主要出现在翻页时,比如只有一两页循环,或者最后一页的下一页按钮仍然可以点击。解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。 3、单机采集正常,云采集无数据。这种现象可以分为4种情况:1)网页问题-IP阻塞原因:大部分有IP阻塞措施的网站优采云都可以解决。极少数网站采取极其严格的IP封堵措施,会导致云端采集采集收不到数据。解决方法:如果是单机采集,可以使用代理IP功能。具体操作请参考代理IP教程。如果是云采集,可以给任务分配多个节点,让多个节点空闲,避免任务在同一个云,同一个IP采集。 优采云云采集服务平台2)云问题-云服务器带宽小原因:云带宽小,导致本地打开慢网站云中打开时间较长,一旦超时,就会not open 网站Or 加载不出来的数据导致这一步被跳过。解决方法:将打开网址的超时时间或下一步前的等待时间设置得更长一些。 3)Rule problem-increment采集 原因:规则设置增量采集,增量采集根据URL判断采集是否通过,在某些网页上使用增量采集会导致增量判断错误页面被跳过。
解决方案:关闭增量采集。 4)Rules issue-禁止浏览器加载图片和云采集不分任务原因:无法勾选的网页很少,禁止浏览器不带云加载图片采集丌解决任务解决方法:取消勾选相关选项。如有更多问题,欢迎您在官网或客服反馈。谢谢您的支持。相关采集教程:天猫产品信息采集优采云云采集服务平台美团业务信息采集赶集招聘信息采集优采云——70万用户采集器精选的网页数据。 1、操作简单,任何人都可以使用:无需技术背景,采集可在线访问。过程完全可视化,点击鼠标即可完成操作,2分钟即可快速上手。 2、功能强大,任何网站都可以:对于点击、登录、翻页、识别验证码、瀑布流、异步加载数据的Ajax脚本的网页,都可以简单的设置为采集。 3、云采集,可以关闭。 采集任务配置完成后可以关闭采集任务,任务可以在云端执行。庞达云采集集群24*7不间断运行,不用担心IP被封,网络中断。 4、功能免费+增值服务,可根据需要选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。