优采云采集器使用要点
优采云 发布时间: 2020-08-09 15:34摘要:不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
1、手动检测工作流设计器中的规则
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检测配置的规则是否有效,寻找存在的问题,最好在运行任务之前自动检测工作流程中的规则。这样可以看见什么步骤在可视外置浏览器和数据字段中不起作用。因此,一旦发觉错误,可以更改相应地规则。查看下边的教程可以了解规则排错的具体方式:
优采云7.0版本——基本排错教程:
/tutorialdetail-1/jbpc_7.html
2、设置正确的超时和滚动时间
有时会发觉,即使配置了正确的规则,并且可以在自动检测规则时获取数据,但是在启动提取时,数据却会遗漏。这是因为没有设置中级选中的Ajax, 最简单的方式是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。
有时网页会出现这样的情况,除非向上滚动,否则不会显示个别内容,因此须要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过个别数据。选择向上滚动的方法并设置适当的滚动时间。这对采集到完整的数据也很重要。
但在执行上述步骤之前,您应当记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您修改了规则,该规则一直无效。
此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非优采云仍然未能打开个别网站。
具体操作可以参照这个教程:/tutorialdetail-1/ajaxdjfy_7.html
3、手动更改XPath
正确使用XPath是使用优采云采集数据的关键。列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的修改。所以强烈建议用户学习一些关于XPath的知识。只需稍为了解一下XPath就可以帮助您解决使用优采云时遇见的许多问题。下面的教程可以帮助您快速学习XPath。
XPath入门1:
/tutorialdetail-1/xpathrm1.html
XPath入门2:
/media/44656/xpath.pdf
4、设置缓存设置
有时我们会发觉外置浏览器在“打开页面”的操作下未打开须要采集的网址。这可能是因为打开网站的次数过多,并且计算机记录了缓存。所以须要选择在打开网页前去除缓存,然后打开须要的网站即可。
设置缓存的另一个反例是提取须要登陆的网站。登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,以便您不需要一次又一次检测登陆步骤。这也会保护你的个人信息。
cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据(通常经过加密),在优采云里获取登入后的cookie记住登入状态达到采集数据的目的。
cookie登录方式:
/tutorialdetail-1/cookie70.html