云采集(本地采集有数据,云采集没有数据的排错教程!)
优采云 发布时间: 2021-10-27 17:07云采集(本地采集有数据,云采集没有数据的排错教程!)
本教程主要针对本地采集有数据,云采集无数据的情况进行排查。如果本地采集没有数据,请先参考本地采集故障排除教程
1 本地采集有数据,云端采集无数据。主要原因如下:1.云服务器IP被采集网站2.Cookie访问限制3.网站或网速原因封锁一、云服务器IP被封锁。以天猫为例:本地采集是正常的,如图1天猫本地采集
2 这时候我们可以直观的看到采集的本地网页URL是一个普通的列表信息URL,比如红框2天猫列表信息URL
3 然后我们启动任务到云端采集,我们会发现任务完成后,没有采集到任何数据,如图3。
4 这时候我们复制任务,删除其他步骤,只要打开网页,然后在打开的网页处添加一个提取数据,添加三个固定字段,云采集,如图4,提取三个固定字段
5 启动云采集后,我们看到云采集的截图如下:
6 然后比较本地采集时采集的结果,如图:
7 如果一致,则节点正常,如果不一致,如图:
8 如红线部分所示,很明显采集是天猫。云节点打开后,URL是,而且云节点需要登录,因为我们可以判断出云服务器IP是采集的@网站Blocked Tips 如果打开网页没有问题,我们可以验证其他步骤,比如下一步是循环下一页,那么我们就可以提取下一个循环的内层HTML(或外层HTML),将循环中的XPATH分离出来,做数据的提取,然后选择Inner HTML作为提取方式,如图:
9 如果下一页正常加载,云采集数据是这样的,如红线所示:
10 Tips 至此,云采集IP的故障处理原理已经完成。具体来说,这项工作存在问题。您可以按照上述步骤多次提取和故障排除。如果提取正常,那么整个过程就正常了。执行,如果数据提取不出来,说明步骤有问题。网页打开,本地采集进程不一致。二、Cookie 访问限制 Cookie 访问限制也是一样,可以按云采集IP Blocking 进行排查,如果发现云的URL 采集采集收录登录信息如“登录”,如图10所示:
11采集页面地址详见第一类(一、云服务器IP被屏蔽)。如果发现需要登录,有两种解决方法: A. 进行登录. 流程设计 B. Cookie 登录 C. 登录的所有教程地址三、网站 或知识补充网速原因如果有一点网站没有完全打开,会显示如图11所示的红线:
12 如上图所示,我们可以清楚地看到网站网页的URL明显有一个红框转动图标:一个完全打开的网站应该如图所示:
13 有时,即使网页完全打开,列表数据的加载也会延迟几秒,如图:
<p>14 如红框1所示,网页已完全打开,但红框2中的列表数据尚未加载。在优采云中,如果一个工作已经完全执行(例如:网页完全打开),那么它会立即执行下一步,但此时,如红框2所示,列表数据没有加载,所以执行失败,云端采集没有数据。解决方法:遇到此类原因或