无规则采集器列表算法(:京东商品列表页为例(自营)字段 )

优采云 发布时间: 2022-04-15 18:31

  无规则采集器列表算法(:京东商品列表页为例(自营)字段

)

  网络上的数据情况非常复杂。以京东商品列表页面为例,每个列表项的字段数量并不完全相同。

  如下图:2、4、第5个商品列表有【自营】字段,1、3项没有【自营】字段。

  在采集第1、产品列表中,找不到【自营】字段。如何处理这些数据?下面将详细说明。

  示例 URL:%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&page=7&s=177&click=0

  

  首先配置一个简单的规则(使用提取数据的步骤)。然后点击流程中的【提取数据】步骤,在数据预览界面,找到对应的字段

  

  并单击,再次单击

  

  按钮,在【未找到元素】时可以看到相关设置。

  

  可以看出,当【提取数据】找不到字段时,优采云提供了3种处理方式:

  1、使用默认值:当找不到当前字段时,自动填充默认值。

  2、将此步骤留空:当找不到当前字段时,此步骤将留空,一般默认。

  3、将此步骤中的所有字段留空:如果找不到当前字段,则将此步骤中的所有字段留空,相当于删除此数据。

  

  下面将结合具体场景详细介绍它们各自的用法。

  1、使用默认值

  要求:采集京东的商品列表页面信息,有的商品列表有【自营】字段,有的没有【自营】字段。当没有【自营】字段时,自动填写默认值【非自营】。

  选择 [Do you own business or not] 字段,点击

  

  按钮,勾选【Use default value】,输入固定值【Not self-operated】,点击【Apply】保存配置。

  

  启动 采集 并查看一下。如果没有找到字段【自营】,则填写固定值【非自营】。

  这只是一个例子,请根据自己的需要设置所需的固定值。

  

  2、将此字段留空

  要求:采集京东的商品列表页面信息,有的商品列表有【自营】字段,有的没有【自营】字段。当没有【自营】字段时,该字段留空。

  选择 [Do you own business or not] 字段,点击

  

  按钮,勾选【留空】,点击【应用】保存配置。(未找到字段时,优采云默认为【留空字段】,无需特殊设置,这里是为了演示)

  

  启动 采集 并查看一下。如果未找到 [自营] 字段,请将此字段留空。

  

  将此步骤的所有字段留空

  要求:采集京东的商品列表页面信息,有的商品列表有【自营】字段,有的没有【自营】字段。当没有【自营】字段时,这一步所有字段都留空,相当于放弃了这个数据。

  选择 [Do you own business or not] 字段,点击

  

  按钮,勾选【此步骤中所有字段为空】,点击【应用】保存配置。

  

  启动 采集 并查看一下。如果未找到 [自营] 字段,则在此步骤中将所有字段留空。导出数据时可以去重空白行,只导出自营数据。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线