[提示]使用采集器采集和过滤ASIN或无法搜索的关键字
优采云 发布时间: 2020-08-06 21:12本教程介绍如何过滤掉Amazon从一批ASIN中删除的产品.
某些ASIN将被Amazon删除. 有两种情况:
1. 找不到搜索ASIN,并且无法打开ASIN产品页面.
2. 找不到ASIN搜索,但可以打开产品页面
在第一种情况下,我们首先介绍ASIN筛选方法.
搜索无法搜索的ASIN,并且无法打开产品页面. 我们可以通过添加采集单个产品的方法来采集它们. 失败的ASIN是已删除的ASIN,成功的ASIN不会被删除.
如下所示添加这些ASIN,然后开始采集:
等待这些ASIN的采集,我们可以看到以下结果:
在方框中圈出的产品不会采集诸如所有权价格之类的信息,这通常是由于采集失败而引起的. 因此,未采集信息的ASIN会被删除,而已采集数据的ASIN不会被删除.
通过上述方法,我们可以快速从一批ASIN中过滤出已删除的ASIN.
现在,在第二种情况下,我们介绍ASIN的筛选方法:
如果无法搜索ASIN,但可以打开产品页面. 在这种情况下,使用上述方法过滤ASIN显然是不可行的,因为可以打开产品页面,因此通过上述方法,也将采集产品信息,因此我们需要使用自动任务采集采集器到过滤器的转换功能.
首先,在系统设置中,我们找到了非URL自动转换功能,选择“转向搜索结果链接”,打开后,我们可以提交关键字进行采集. 即直接采集ASIN,如下所示:
然后,删除所有任务以清空采集器,以避免与以前的任务混淆. 再次添加任务,然后将这些要过滤的ASIN添加到任务列表.
将这些ASIN添加到采集器任务区域以进行搜索和采集.
采集结果如下图所示. 我们可以看到,已经成功过滤出5个ASIN了. 未采集的是已删除的ASIN.
为了更直观地查看它,我们可以直接导出任务列表并通过excel查看. 如下图所示
单击任务区域的右键可以导出这些采集结果.
导出表后,如下图所示:
从excel中可以很快看出,采集的页面数列为0页,并且采集的产品总数也为0,这意味着尚未搜索到这些产品.
我们可以使用excel的过滤功能来批量提取这些ASIN. 如下图所示:
如上图所示,可以通过将筛选出的项目设置为0来筛选出那些无法搜索的ASIN.
到目前为止,筛选删除的ASIN的方法的介绍已经完成.
补充:
某些ASIN将无法采集数据,并且不会采集任何数据. 您可以在采集日志中参考故障提示描述.
以上方法仅供参考,方便