云端内容采集(优采云采集过程中常出现的问题以及解决方法本教程)
优采云 发布时间: 2021-10-30 15:09云端内容采集(优采云采集过程中常出现的问题以及解决方法本教程)
优采云采集 过程中经常出现的问题及解决方案 解决错误或如何理解错误,更好的与客服沟通的方式。优采云采集器 主要是利用技术定位和模拟用户浏览网页的操作来采集数据。用户无需了解网页架构、数据采集原理等技能,通过优采云 采集器即可形成优采云可理解的循环工作采集流程. 如果出现采集模式不能满足需求的情况,后面会有更详细的排查教程。采集 过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题和云端问题。当采集出现异常时,请按照以下流程进行排查和查找问题类型: 1、 手动执行一次规则:打开界面右上角的流程图,点击用鼠标在流程图中规则,从上到下开始,每次点击下一步都会有相应的反应,没有反应的步骤就是出现问题的步骤。注:1)点击循环内提取元素手动选择循环中除第一个以外的内容,防止循环失败,只点击提取循环内第一个元素2)全部每一步的规则执行后执行下一步。网页未完全加载,即浏览器上的圆圈等待图标没有消失时,观察网页内容是否已满载。如果是满载,可以自行取消加载,然后再配置规则。2、单独执行采集,在采集的结果中检查采集没有数据的项目。
注意:最好把当前的URL加入到规则中,这样就有没有采集到数据中的项目。您可以复制URL并在浏览器中打开它以检查原因并确定错误。下面将可能出现的问题描述如下,供大家参考: 1、 手动执行步骤无响应可能有两种现象: 1) 步骤未正常执行原因:规则问题,采集器问题,定位模拟问题解决方法:可以排查,删除这一步,重新添加,如果还是不能执行,则排除问题,可以:在浏览器中打开网页来操作,如果在浏览器中可以执行一些滚动或页面点击翻页,但在采集器中不能执行。这就是采集器的问题。原因是采集器内置浏览器是火狐浏览器,可能是内置浏览器版本在后续版本中发生了变化,导致浏览器中可以实现的功能,无法实现在 采集器 嵌入式浏览器中执行。这类网页中的数据是智能的采集 翻动或滚动前的数据。排除采集器问题和规则问题后,可以尝试在与规则布局相同的页面重新添加步骤。如果在这样的页面上可以执行但是只有部分页面不能执行,就是定位模拟的问题,这个问题在时间跨度大的网站中经常存在。原因是网站的布局发生了变化,导致采集器定位所需的XPath发生了变化。请参考XPath章节修改规则或咨询客服,建议向客服说明网站 URL及错误原因,以便客服提供解决方案。优采云采集器疑难解答-图1 2)点击循环或采集只出现在第一个内容,点击第二个内容仍然是采集
优采云采集器疑难解答-图22、单机采集未采集数据有4种可能原因: 1)单机操作规则,数据未经过采集到 会显示 采集 是完整的。这种现象可以分为3种情况 ①打开网页后,直接显示采集。完成原因:网页问题,第一个网页加载太慢,优采云会等待一段时间优采云如果还在加载超过一定时间,会跳过这一步。后续步骤认为内容未加载,无法采集数据。优采云 结束任务,导致采集 无法数据。解决方法:增加网页的超时时间,或者等待下一步设置执行,以便网页有足够的时间加载。优采云采集器疑难解答-图片3优采云采集器疑难解答-图片4② 网页一直在加载。原因:网页问题,部分网页加载缓慢。我希望 采集 的数据不出现。解决方法:如果当前步骤是打开网页,可以增加网页的超时时间。如果是点击元素的步骤,并且采集的数据已经加载完毕,可以在点击元素的步骤中设置ajax延迟。点击后,加载了新的数据,网页的URL并没有改变为ajax链接。@优采云采集器疑难解答-图5③网页没有进入采集页面原因:这个问题经常出现在点击元素的步骤。当某些网页有ajax链接时,需要根据点击位置来判断是否需要设置。如果不设置,当采集为单机设备时会一直卡在上一步,没有采集的数据。网页异步加载时,如果不设置ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。
解决方法:在相应的步骤中设置ajax延迟,一般为2-3S。如果网页加载时间较长,可以适当增加延迟时间。单击元素,循环到下一页,然后将鼠标移动到元素。这三个步骤中,有ajax设置2)单机操作规则,无法正常执行。原因:规则问题或定位模拟问题。解决方法:首先判断 ajax 是否需要设置,是否设置正确。如果不是ajax问题,您可以:删除有问题的步骤,重新设置,如果问题解决,则是规则问题,如果问题没有解决,则是定位模拟问题,您可以:参考至Xpath 章节修改网页Xpath 或咨询客服。建议解释一下网站 URL及错误原因给客服,以便客服提供解决方案。3)单机操作规则,第一页或第一页数据正常,但后面不能执行。原因:规则问题——循环部分有问题。解决方法:参考第二个内容的手动执行。4)单机操作规则,数据丢失或错误采集有五种情况: ① 某些字段没有数据。原因:网页数据为空,模拟定位问题。解决方法:勾选没有字段的链接,用浏览器打开。如果没有字段,则没有问题。如果浏览器打开有内容,就是模拟定位问题。您可以:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 网址和错误原因,方便客服提供解决方案。② 采集 数据个数不对。原因:规则问题——循环出现问题。解决方法:手动参考第二个内容。③ 采集 数据乱序,不是对应的信息。原因:规则问题-提取步骤太多,页面加载时间过长,如果设置ajax忽略加载,可能会导致多次提取步骤出现一些错误,因为内容没有加载或者加载不完整。规则问题——循环中存在问题。解决方法:手动参考第二个内容。③ 采集 数据乱序,不是对应的信息。原因:规则问题-提取步骤太多,页面加载时间过长,如果设置ajax忽略加载,可能会导致多次提取步骤出现一些错误,因为内容没有加载或者加载不完整。规则问题——循环中存在问题。解决方法:手动参考第二个内容。③ 采集 数据乱序,不是对应的信息。原因:规则问题-提取步骤太多,页面加载时间过长,如果设置ajax忽略加载,可能会导致多次提取步骤出现一些错误,因为内容没有加载或者加载不完整。
解决方案:将规则分为两步。如果采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集评论数据,后续导出的数据会在excel和数据库中进行匹配处理。④ 该字段出现在不同的地方。原因:网页问题-Xpath更改 解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,方便客服给出解决方案。⑤数据重复原因:网页问题-Xpath定位问题,问题主要发生在翻页,比如只有一两页循环,或者最后一页的下一页按钮仍然可以点击。解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。3、单机采集正常,云采集无数据。这种现象可以分为4种情况: 1)网页问题-IP阻塞原因:大部分都有IP阻塞措施网站优采云可以解决,很少网站采用极其严格的IP封堵措施,这部分会导致云采集采集得不到数据。解决方法:如果是独立的采集,可以使用代理IP功能。对于具体操作,请参考代理IP教程。如果是云端采集,可以给任务分配多个节点,让多个节点空闲,避免任务在同一个云端,同一个IP采集。2)云问题-云服务器带宽小。原因:云带宽小,导致本地打开速度慢网站在云中打开时间较长,一旦超时就打不开网站或加载无数据导致这一步被跳过。
解决方法:将打开网址的超时时间或下一步前的等待时间设置得更长一些。3)规则问题-增量采集 原因:规则设置增量采集,增量采集根据URL判断采集是否已经通过,并且部分网页使用增加了采集的量会导致增量判断错误跳过页面。解决方法:关闭增量采集。4)规则问题-禁止浏览器加载图片和云采集不要拆分任务原因:很少有网页不能勾选禁止浏览器加载图片和云采集做不拆分任务 解决方案:取消选中相关选项。如果有更多问题,欢迎您在官网或客服反馈。感谢您的支持。相关采集教程:天猫商品信息采集美团商户信息采集刚记招聘信息采集优采云——70万用户选择的网页数据采集器 . 1、操作简单,任何人都可以使用:无需技术背景,即可上网采集。过程完全可视化,点击鼠标即可完成操作,2分钟即可快速上手。2、功能强大,任何网站都可以:点击、登录、翻页、识别验证码、瀑布流、Ajax脚本,通过简单的设置异步加载数据页面。采集。3、云采集,它可以被关闭。配置完采集任务后,可以关闭,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封,网络中断。4、功能免费+增值服务,可根据需要选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。@4、功能免费+增值服务,可根据需要选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。@4、功能免费+增值服务,可根据需要选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。