优采云采集器使用要点

优采云发布时间: 2020-08-09 15:34

　　摘要：不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题，我们把这种问题做了整理，做成一份使用要点，希望它们能帮助你解决在使用优采云采集器碰到的问题。

　　不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题，我们把这种问题做了整理，做成一份使用要点，希望它们能帮助你解决在使用优采云采集器碰到的问题。

　　1、手动检测工作流设计器中的规则

　　采集过程中出现的错误可以归类为五个方面，分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题，当可以先检测配置的规则是否有效，寻找存在的问题，最好在运行任务之前自动检测工作流程中的规则。这样可以看见什么步骤在可视外置浏览器和数据字段中不起作用。因此，一旦发觉错误，可以更改相应地规则。查看下边的教程可以了解规则排错的具体方式：

　　优采云7.0版本——基本排错教程：

　　/tutorialdetail-1/jbpc_7.html

　　2、设置正确的超时和滚动时间

　　有时会发觉，即使配置了正确的规则，并且可以在自动检测规则时获取数据，但是在启动提取时，数据却会遗漏。这是因为没有设置中级选中的Ajax, 最简单的方式是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外，您可以在工作流设计器的不同操作下设置等待时间，以便确保加载所需的数据。

　　有时网页会出现这样的情况，除非向上滚动，否则不会显示个别内容，因此须要在“打开网页”这一步骤中设置滚动时间，否则可能会遗漏设置滚动时间而错过个别数据。选择向上滚动的方法并设置适当的滚动时间。这对采集到完整的数据也很重要。

　　但在执行上述步骤之前，您应当记住，所有步骤都应在页面完全加载后进行; 如果不是，即使您修改了规则，该规则一直无效。

　　此外，我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”，除非优采云仍然未能打开个别网站。

　　具体操作可以参照这个教程：/tutorialdetail-1/ajaxdjfy_7.html

　　3、手动更改XPath

　　正确使用XPath是使用优采云采集数据的关键。列如翻页，缺失数据和不规则值域等步骤大多数时间涉及XPath的修改。所以强烈建议用户学习一些关于XPath的知识。只需稍为了解一下XPath就可以帮助您解决使用优采云时遇见的许多问题。下面的教程可以帮助您快速学习XPath。

　　XPath入门1：

　　/tutorialdetail-1/xpathrm1.html

　　XPath入门2：

　　/media/44656/xpath.pdf

　　4、设置缓存设置

　　有时我们会发觉外置浏览器在“打开页面”的操作下未打开须要采集的网址。这可能是因为打开网站的次数过多，并且计算机记录了缓存。所以须要选择在打开网页前去除缓存，然后打开须要的网站即可。

　　设置缓存的另一个反例是提取须要登陆的网站。登录后，您可以选择“使用指定的Cookie”来记录您的帐户信息，以便您不需要一次又一次检测登陆步骤。这也会保护你的个人信息。

　　cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据（通常经过加密）,在优采云里获取登入后的cookie记住登入状态达到采集数据的目的。

　　cookie登录方式：

　　/tutorialdetail-1/cookie70.html

0

2020-08-09

云端采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

优采云采集器使用要点

0 个评论

发起人

AI时代内容工厂

优采云采集器使用要点

0 个评论

发起人

相关问题