云采集(云采集漏数据原因与排查方法:自身统计有误。)

优采云 发布时间: 2021-08-28 22:17

  云采集(云采集漏数据原因与排查方法:自身统计有误。)

  问题:

  Cloud采集数据泄露的原因?如何排除故障?

  答案:

  Cloud采集数据泄露原因及排查方法:

  ① 我自己的统计有误。检查网页,尤其是最后几页,并重新统计。

  ②网站 本身没有那么多数据。

  ③ 对云采集的原理了解不够,机械地比较云采集数据和本地采集数据。数据未完成采集。如果发现和本地数据不一样,就认为云采集泄露了数据。事实上,它只是被抛在后面。请参阅云加速原理教程。

  ④ 去重后的云端采集数据与没有去重的本地采集数据对比,感觉云端采集数据少了。云端采集数据会自动去重,看到的都是非重复数据。

  ⑤ 规则已更改,采集网站(URL)已更改,将更改规则的数据与之前的数据进行比较。数据不同是正常的。它应该只比较一个规则本地采集和云采集的数据。

  ⑥ 网页格式发生变化,原xpath定位不准确,导致数据少。

  ⑦网站有反采集措施(验证码、登录、IP阻塞),导致云端采集无法平滑采集所有数据。封IP和验证码,云端采集和本地采集可以考虑使用代理IP或验证码包。

  ⑧ 规则本身的本地采集会泄露数据。这种情况请参考规则疑难解答教程修改规则。

  ⑨ 该字段不存在。过程中有多个提取的数据。如果其中一个提取的数据因为字段不存在而没有提取出来,并且不能同时提取数据【此步骤中所有字段留空】,则整个数据将被删除,这样如果数据缺失,可以将提取数据中的某个字段设置为固定字段(例如:当前时间、当前页面URL等必须提取的数据信息)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线