优采云采集器的使用方法及步骤自检方法(二)
优采云 发布时间: 2021-04-27 07:26优采云采集器的使用方法及步骤自检方法(二)
1、如果您是新手,请先看一下官方网站的视频教程。
我们的官方培训讲师向您介绍了视频教程,介绍如何使用优采云 采集器。每个教程实际上都很简短。如果您在开始采集之前先看一下这些视频教程,那就太好了。可以回答一些问题。
2、 XX 网站可以采集吗? XX数据可以为采集吗?
请先参考第1条。
在官方网站的视频教程中,我们已经介绍了优采云 采集器是通用网页采集软件。只要有网站,您就可以浏览该网页。您可以看到的大多数内容都是采集(视频比较特殊,因此您必须分析具体情况)。
为了保护您的隐私,所有任务和配置都以加密形式存储在云中。没有人,但是您可以查看特定的内容。您在采集和采集过程中输入的帐户密码。结果存储在本地计算机上。但请严格遵守相关法律法规。如果优采云 采集器官员收到有关非法采集的任何报告,则该帐户将尽快被暂停。
3、为什么采集数据过早停止?
如果遇到采集提早停止的问题,请按照以下步骤进行自我检查:
第一步:请确认您可以在浏览器中看到多少内容
有时搜索显示的数量与您最终看到的数量不同。请确认您可以看到多少数据,然后确定采集是提前停止还是正常停止。
第2步:采集结果数量与浏览器中看到的数量不一致
在采集的过程中,如果遇到此问题,则有两种可能性:
第一种可能是采集太快而页面加载时间太慢,这导致采集无法获取页面中的数据。
在这种情况下,请增加请求的等待时间。等待时间过长后,网页将有足够的时间来加载内容。
请求等待时间在启动设置->智能策略中设置,如下图所示:
第二种可能性是您遇到了其他问题
在操作过程中,我们可以在操作界面中单击“查看网页”,以查看当前网页内容是否正常,无法正常显示,是否存在异常提示等。
如果发生上述情况,我们可以降低采集的速度,手动输入验证码,等等。关于哪种方法有效,您需要先进行测试,然后再知道网站的不同问题,没有统一的解决方案。
如果您在尝试上述解决方案后仍然无法解决问题,可以在帮助中心内向我们提供反馈,我们将为您提供答案。
4、为什么采集中的字段丢失了?
不完整的字段通常具有以下两种情况:
首先,由于列表元素的结构不同,某些元素具有不在其他元素中的字段。这是正常现象。请在网页上确认想要的字段是否存在于相应的元素中。
第二,页面结构已更改。这通常发生在收录多个页面结构的同一搜索结果中,例如搜索引擎搜索结果(包括多种网站)。
在这种情况下,需要分析特定的问题。您可以导出采集任务并将其发送到我们的官方帮助中心,我们的客户服务将帮助您测试和分析该任务。
5、为什么采集有重复的数据?
首先,请确保您已经观看了视频教程,您的采集任务没有页面类型设置问题,即,单个页面类型被错误地设置为列表类型,或者您误解了使用循环采集方法。
然后请确定您是重复重复采集个数据还是单个采集个重复数据。
<p>如果未修改采集任务,则每次运行采集任务时,它都是从头采集开始的,因此,每次重复采集的数据,这都是正常的。