云端采集器(优采云采集排错教程本教程快速解决错误或者更好的和客服沟通)
优采云 发布时间: 2022-01-11 10:18云端采集器(优采云采集排错教程本教程快速解决错误或者更好的和客服沟通)
优采云采集疑难解答教程
本教程主要讲如果您在使用优采云采集时遇到一些问题,如何快速找出错误,解决错误或如何理解错误,以及与客服沟通的更好方法。
优采云采集器主要通过技术定位和模拟用户对网页的浏览操作来采集数据。用户无需了解网页架构、数据采集原理等技能。采集器 可以形成一个 优采云 可以理解并且可以循环工作的采集 进程。
如果出现采集模式不符合要求的情况,排查后会有更详细的教程。
采集过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、云端问题。当采集异常时,请按照以下步骤排查错误,查找问题类型:
(1)手动执行规则:打开界面右上角的流程图,
用鼠标点击流程图中的规则,从上到下,每次点击下一步,都会有相应的反应,没有反应的步骤就是出现问题的步骤。
当心:
一个。点击提取循环中的元素,手动选择循环中第一个以外的内容,防止循环失效,只点击提取循环中的第一个元素
湾。在所有规则的每一步之后执行下一步。网页未加载完毕,即浏览器上的圆圈等待图标消失时,观察网页内容是否加载完毕。如果是满载,可以自行取消加载,然后配置规则。
(2)执行单机采集,检查采集结果中没有采集获取数据的项。
注意:最好将当前的URL添加到规则中,这样如果数据中有不是采集的项,可以复制URL在浏览器中打开查看原因并确定错误。
可能出现的症状描述如下,供您参考:
(1) 手动步骤不响应
有两种可能的现象:
1.步骤未正确执行
原因:规则问题、采集器问题、定位模拟问题
解决方案:
您可以执行故障排除,删除此步骤,然后重新添加。如果仍然无法执行,则排除规则问题。你可以:
在浏览器中打开网页进行操作,如果在浏览器中可以执行一些滚动或点击翻页,而在采集器中却不能执行,那就是采集器的问题,原因是采集器 内置浏览器是火狐,可能是内置的浏览器版本在后续版本中发生了变化,导致浏览器中可以实现的功能无法在采集器中执行@> 内置浏览器。此类网页中的数据,智能采集翻页或滚动之前的数据。
排除采集器问题和规则问题后,可以尝试在页面上重新添加步骤,布局与制定规则时相同。如果可以在这样的页面上执行,但在某些页面上不能执行,那就是定位模拟。这个问题经常存在于时间跨度较大的网站中。原因是网站的布局发生变化,导致采集器定位所需的XPath发生变化。请参考XPath章节修改规则或咨询客服时,建议向客服说明网站 URL及错误原因,以便客服给出解决方案。
2.循环中的点击或采集只在点击第一个内容时发生,当点击第二个内容时采集到第一个内容
原因:规则问题,定位模拟问题
解决方案:
检查循环中的第一项是否勾选点击当前循环中设置的元素
如果仍然不可能,您可以:
如果循环中还有其他循环,先参考问题1的*敏*感*词*去掉里面的内容,删除有问题的循环,重新设置。如果移除的规则没有自动重置,则需要手动重置。如果可以使用循环,请排除它。规则问题,如果不是,就是定位模拟问题,可以:
勾选循环中提取数据的自定义数据字段,勾选自定义定位元素方法,看里面是否有相对的Xpath路径,如果没有,删除该字段,勾选外部高级选项中的使用循环,添加再次,再次尝试,如果有反应,问题就解决了,如果还是不行,可以:
参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。
(2)单机采集无法采集数据
有4个可能的原因:
1.单机操作规则,在采集数据前会显示采集Complete
这种现象分为3种情况
A、打开网页后直接显示采集
原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,如果过了一定时间仍然加载,优采云会跳过这一步,后续步骤认为内容尚未加载。如果没有数据,优采云 将结束任务,导致 采集 没有数据。
解决方法:增加网页的超时时间,或者在设置下一步执行之前等待,让网页有足够的时间加载。
B. 网页不断加载
原因:网页问题,有些网页加载很慢。采集 的所需数据未出现。
解决方法:如果当前步骤是打开网页,可以延长网页的超时时间。如果是点击元素步骤,并且要加载采集的数据,可以在点击元素步骤中设置ajax延迟。点击后,新数据加载完毕,网页URL不变,是ajax链接。
C、网页没有进入采集页面
原因:这个问题经常出现在点击元素步骤。当某些网页收录ajax链接时,根据点击位置来判断是否需要设置。如果不设置,单机采集,采集无数据时,总是卡在上一步。网页异步加载时,如果不设置Ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。
解决方法:在相应的步骤中设置ajax延迟,一般为2-3S。如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环下一页,将鼠标移到元素上,这三步都有ajax设置
2.单机运行规则无法正常执行
原因:规则问题或定位模拟问题
解决方案:
首先判断ajax是否需要设置,是否设置正确,如果不是ajax问题,可以:
删除问题步骤并重新设置。如果问题解决了,那就是规则问题。如果问题没有解决,那就是定位仿真问题。你可以:
参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。
3.单机操作规则,第一页或第一页数据正常,后面不能执行
原因:规则问题 - 循环部分出现问题
解决方法:参考第二个内容的手动执行。
4.单机操作规则,数据采集缺失或错误
这种现象分为5种情况:
A. 有些字段没有数据
原因:网页中的数据为空,模拟定位问题
解决方案:
查看没有字段的链接并使用浏览器打开它们。如果没有字段,则没有问题。如果浏览器打开内容,这是一个模拟定位问题。你可以:
参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。
B.采集数据量不正确
原因:规则问题 - 循环部分出现问题
解决方法:参考手动执行第二个内容
C.采集数据乱七八糟,没有对应的信息
原因:规则问题——提取步骤太多,页面加载时间过长,如果设置ajax忽略加载,可能会由于内容未加载或加载不完整而导致部分提取步骤多的错误。
解决方案:将规则分为两个步骤。如果采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集评论数据,和然后将数据导出到excel和数据库中进行匹配处理
D. 字段出现在不同的地方
原因:网页问题 - Xpath 更改
解决方法:参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址和错误原因,以便客服给出解决方案。
E. 数据重复
原因:网页问题——Xpath定位问题,问题主要出现在翻页时,比如只循环一两页,或者最后一页的下一页按钮仍然可以点击。
解决方法:参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址和错误原因,以便客服给出解决方案。
(3)独立采集正常,云采集无数据
这种现象分为4种情况:
1.网页问题-封IP的原因
原因:大部分网站优采云有IP屏蔽措施都可以解决,很少有网站采取极其严格的IP屏蔽措施,会导致云采集采集@ > 无可用数据。
解决方案:
如果是单机采集,可以使用代理IP功能。详见代理IP教程。
如果是云采集,可以为任务分配到多个节点,可以让多个节点空闲,避免同一个云采集同IP上的任务。
2.云问题-云服务器带宽小
原因:云端带宽小,导致本地网站打开慢,在云端打开时间较长。一旦超时,将无法打开网站或无法加载数据,导致跳过此步骤。
解决方法:将打开URL的超时时间或下次执行前的等待时间设置长一些。
3.规则问题 - 增量采集
原因:规则设置了增量采集,增量采集根据URL判断采集是否已经通过。部分网页使用增量采集,会导致增量判断错误,跳过。这一页。
解决方法:关闭增量采集。
4.规则问题-禁止浏览器加载图片和云采集不要拆分任务
原因:很少有网页不能勾选禁止浏览器加载图片和云端采集不要拆分任务
解决方法:取消选中相关选项。
如有更多问题,请在官网或客服反馈,感谢您的支持。