常见问答:XX网站能不能采集?(组图)
优采云 发布时间: 2021-03-21 21:09常见问答:XX网站能不能采集?(组图)
常见问题:
1、 XX 网站可以是采集吗? XX数据可以为采集吗?
在官方网站的视频教程中,我们已经介绍了优采云 采集器是通用网页采集软件。只要有网站,您就可以浏览该网页。您可以看到的大多数内容都是采集(视频很特别,因此您必须分析具体情况)。
为了保护您的隐私,所有任务和配置都以加密形式存储在云中。除了您可以查看特定内容之外,没有其他人。您在采集和采集过程中输入的帐户密码。结果存储在本地计算机上。但请严格遵守相关法律法规。如果优采云 采集器官员收到有关非法采集的任何举报,该帐户将尽快被暂停。
2、为什么采集数据过早停止?
如果遇到采集提早停止的问题,请按照以下步骤进行自我检查:
第一步:请确认您可以在浏览器中看到多少内容
有时搜索显示的数量与您最终看到的数量不同。请确认您可以看到多少数据,然后确定采集是提前停止还是正常停止。
第2步:采集结果数量与浏览器中看到的数量不一致
在采集的过程中,如果遇到此问题,则有两种可能性:
第一种可能是采集太快而页面加载时间太慢,这导致采集无法获取页面中的数据。
在这种情况下,请增加请求的等待时间。等待时间过长后,网页将有足够的时间来加载内容。
请求等待时间的设置在启动设置->智能策略中,如下图所示:
第二种可能性是您遇到了其他问题
在操作过程中,我们可以在操作界面中单击“查看网页”,以查看当前网页内容是否正常,无法正常显示,是否存在异常提示等。
如果发生上述情况,我们可以降低采集的速度,切换代理IP,手动编码等。关于哪种方法可以工作,我们需要进行测试以了解不同的网站问题是不同的。没有单一的解决方案。
如果您在尝试上述解决方案后仍不能解决问题,可以在帮助中心内给我们反馈,我们将为您提供支持。
3、为什么采集中的字段丢失了?
不完整的字段通常具有以下两种情况:
首先,由于列表元素的结构不同,某些元素具有不在其他元素中的字段。这是正常现象。请在网页上确认想要的字段是否存在于相应的元素中。
第二,页面结构已更改。这通常发生在收录多个页面结构的同一搜索结果中,例如搜索引擎搜索结果(包括多种网站)。
在这种情况下,需要分析特定的问题。您可以导出采集任务并将其发送到我们的官方帮助中心,我们的客户服务将帮助您测试和分析该任务。