优采云采集器制作Points.docx

优采云发布时间: 2020-08-07 21:40

　　文档简介:

　　使用优采云采集器的要点

　　许多用户将在工作单或扣除组中咨询优采云采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.

　　1. 在工作流设计器中手动检查规则

　　采集过程中的错误可以分为五个区域，分别是网页问题，规则问题，定位模拟问题，采集器问题和云问题. 您可以首先检查配置的规则是否有效，然后查找现有规则. 问题，最好在运行任务之前手动检查工作流程中的规则. 这样，您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此，一旦发现错误，就可以相应地修改规则. 查看以下教程，了解规则故障排除的具体方法:

　　优采云 7.0版本基本故障排除教程:

　　orialdetail-1 / jbpc_7.html

　　2，设置正确的超时时间和滚动时间

　　有时会发现，即使配置了正确的规则，并且在手动检查规则时也可以获得数据，但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax，最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外，您可以在工作流设计器的不同操作下设置等待时间，以确保加载所需的数据.

　　有时该网页会这样显示. 除非向下滚动，否则不会显示某些内容. 因此，您需要在“打开网页”的步骤中设置滚动时间，否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.

　　但是在执行上述步骤之前，您应该记住，所有步骤都应在页面完全加载后执行；否则，即使您更改规则，规则仍然无效.

　　此外，我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”，除非优采云仍然无法打开某些网站.

　　有关具体操作，请参阅本教程: orialdetail-1 / ajaxdjfy_7.html

　　3. 手动修改XPath

　　正确使用XPath是使用优采云采集数据的关键. 页面翻页，数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此，强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.

　　XPath条目1:

　　orialdetail-1 / xpathrm1.html

　　XPath条目2:

　　ia / 44656 / xpath.pdf

　　4，设置缓存设置

　　有时，我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次，并且计算机已记录了缓存. 因此，您需要在打开网页之前选择清除缓存，然后再打开所需的网站.

　　设置缓存的另一个示例是提取需要登录的网站. 登录后，您可以选择“使用指定的Cookie”来记录您的帐户信息，因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.

　　Cookie是指某些网站存储在用户本地终端上的数据（通常是加密的），以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的，用以记住登录状态，以达到采集数据的目的.

　　Cookie登录方法:

0

2020-08-07

云端采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

优采云采集器制作Points.docx

0 个评论

发起人