优采云采集器V9将标签组合功能放在了数据获取方式选项
优采云 发布时间: 2021-07-27 23:06优采云采集器V9将标签组合功能放在了数据获取方式选项
网页数据抓取工具优采云采集器V9在数据获取方式选项中加入了标签组合功能,即可以通过标签组合获取标签数据。以下说明如何使用此功能。学习前需要注意以下情况:
1.标签组合为下载前组合文件的内容
有朋友发现在a标签中下载了某个文件。原地址为aaa,下载或检测到的地址为bbb。那么,如果在b标签中组合了a标签,a标签的值为aaa。之所以采用这种处理方式,是因为文件下载是在标签组合后进行的。如何实现标签内容为文件下载后的结果?你可以新建一个标签,选择“自定义固定格式数据”,把你的标签组合的内容放进去。这里的替换会在文件下载后进行。
2.Content 页面标签循环采集并添加为新记录
如果两个组合标签都是内容页标签,当这两个标签组合在一起时,会根据循环次数最大的记录生成一个新的相同编号的循环记录。如果一个标签的循环次数较少,则新生成的标签中该标签的值为空。例如,将标签a、b组合起来生成标签c。 a的循环数为5,b的循环数为3,将产生5个cs。其中,前3个标签的值分别对应a和b。在最后两个值中,b 的值为空。比如我们假设a的值为11、22、33、44、55,b的值为aa,bb,cc,那么c由[label: a][label:b] 组合起来,产生的c的值为11aa, 22bb, 33cc, 44、55,后面两个b值为空。
3.List页面标签和内容页面标签组合
如果两个标签中的一个是内容页,另一个是列表页,内容页会参与第2条的循环处理。在这个过程中,列表页首先被当作一个字符串处理。合并完成后,程序将再次进行数据处理操作。最后,组合标签中列表页面标签的内容将替换为实际值。可以再次提取和下载组合结果。比如内容页a和列表页b合并生成c,其中a的值为11、22、33,b的值为bb,那么c的第一个组合结果为11 [label:b], 22 [Label:b], 33[label:b],然后进行数据处理:如果b的值为bb,则最终结果为11bb, 22bb, 33bb。
实际操作下,现有标签的组合操作示例如下:
我们将“Title”和“Source”标签组合成一个新标签“Title+Source”,用“___”分隔。我们测试了下图所示的结果。可以看到测试结果和预期的效果是一样的。
那么生成固定格式数据的组合方式是如何操作的呢?看下图:
再次测试,可以看到测试结果与现有标签组合的结果一致。