优采云采集器制作Points.docx

优采云 发布时间: 2020-08-07 21:40

  文档简介:

  使用优采云采集器的要点

  许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.

  1. 在工作流设计器中手动检查规则

  采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:

  优采云 7.0版本基本故障排除教程:

  orialdetail-1 / jbpc_7.html

  2,设置正确的超时时间和滚动时间

  有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.

  有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.

  但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.

  此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.

  有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html

  3. 手动修改XPath

  正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.

  XPath条目1:

  orialdetail-1 / xpathrm1.html

  XPath条目2:

  ia / 44656 / xpath.pdf

  4,设置缓存设置

  有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.

  设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.

  Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.

  Cookie登录方法:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线