dsracbeiphph已采纳优采云采集器采集信息分两个步骤
优采云 发布时间: 2021-03-27 00:46
dsracbeiphph已采纳优采云采集器采集信息分两个步骤
dsracbeiphph
通过
优采云 采集器 采集信息分为两个步骤:
1,进入网站。此步骤还告诉软件需要采集多少个网页,并提供特定的网页地址。
2,采集内容。拥有网站后,您可以访问该网站以获取采集信息,但是该网站上有很多信息,并且该软件不知道您要采集哪些信息。在内容部分,我们需要制定规则。告诉软件我要选择什么。
1,访问网站。
网页上的产品信息就是您想要的,即目标。
在采集链接页面中,进入采集地址列表页面,在这里您应注意对无用链接的过滤。
然后单击测试按钮以测试信息的正确性:
测试正确之后,我们扩展地址,现在我们只获取列表页面的文章地址,还有其他需要采集的列表,其他列表页面位于其上方的页面中,我们观察这些链接的分布,找出规则,然后分批填写URL规则。
2,内容的采集
经过上述处理,可以拾取目标产品页面的所有链接。在下面输入内容的采集。
在澄清采集的内容之后,我们开始编写采集规则,优采云 采集内容是采集网页的源代码,因此我们需要打开产品的源代码页并找到采集信息的位置。例如,“说明”字段中的采集:
找到描述的位置,找到它后如何填充采集规则,这很简单,只需用采集的起始字符串和结束字符串填充采集的对应位置目标。在这里,我们选择Description:作为开始字符串和结束字符串。值得注意的是,起始字符串在此页面上必须是唯一的,并且该字符串在其他产品页面上也存在。该页面仅使软件能够找到位置采集,其他页面也是通用的,以确保软件可以从其他页面采集数据。
完成后,并不表示采集是正确的。您需要对其进行测试以排除一些无用的数据。可以在HTML标签排除和内容排除中完成排除。测试成功后,便会打上这样的标签。
在这里,我们使用通配符来实现此要求。我们使用(*)通配符表示非通用的任意位置。 采集的地址由参数(变量)表示。最后,我们将该段更改为:(*)比较价格(*)产品详细信息,填写模块,然后测试其是否成功。
如果测试失败,则表明您填写的内容不符合唯一通用的标准,因此需要进行调试。测试成功后,您可以保存并输入标签创建。
此处的标签制作与上面的相同。找到您想要采集信息的位置,填写开始和结束字符串,然后进行过滤。唯一的区别是您必须在页面选项中选择刚创建的内容。模块,我在这里不做详细介绍,直接显示结果。
标签现在完成。单击更新后,删除发布选项,然后您可以继续执行任务的采集。