关键词智能采集器(1.采集目标电商数据价值是巨大的,尽量模拟*敏*感*词*手工操作一样)

优采云 发布时间: 2021-09-06 07:04

  关键词智能采集器(1.采集目标电商数据价值是巨大的,尽量模拟*敏*感*词*手工操作一样)

  1.采集target

  电子商务数据的价值是巨大的,有很多有价值的用途。不过具体数值暂时不介绍,只介绍获取数据的方法。

  在这个例子中,我们将使用关键字教育玩具作为搜索条件来搜索亚马逊产品和采集前100 数据。我们没有任何特殊值,所以让我们用可见数据做采集。

  2.分析

  在写规则的过程中,没有找到详细的反爬规则,但是据说亚马逊对反爬的很严格,所以把规则的等待时间设置的长一些,尝试模拟一下*敏*感*词*的手工操作。

  3.写规则

  1. 我们需要从搜索入手,所以没有考虑智能采集,直接使用高级采集模式。首先我们进入亚马逊页面:/

  2. 操作前编辑

  我们需要先模拟输入关键词,然后点击搜索进入列表页面,然后我们就可以采集数据了。所以需要在开始节点添加一个输入文字的动作,点击,等待一段时间才能实现。

  我们选择了输入文本值作为参数模式,为后面的多关键词搜索做准备。参数配置如图:

  

  那么最终的预操作节点如图:

  

  3. 编辑列表块

  我们需要先选择block,但是直接选择block可能不一定能选中。我们可以先选择一个标题,然后使用方向选择向上选择,直到我们的产品列表页面被选中。最终的选择结果如图所示。 :

  

  我们看到选中的项目数是49,但是直到列表中的项目数只有48,我们可以点击冗余块的右下角去除冗余块。一般情况下显示X,估计是样式问题引起的,去掉也是合理的。

  4. 编辑栏

  我们选择比较明显的字段,标题,价格,主图地址,评分,评价次数作为采集数据。字段选择比较简单。分数显示为五角星,但是当我们选择五角星时,文字显示如图:

  

  我们可以简单地通过字段值处理来提取特定的分数。我使用的处理方法如下:

  

  5. 编辑标签

  分页方式一目了然,只需选择并点击固定翻页按钮,然后选择下一页按钮,但我们只需要采集前100个数据,每页采集48,所以我们只需要最多需要 3 页。

  6. 保存规则

  点击Finish,命名规则Amazon Search-Rules,将数据表命名为Amazon Search-Data,然后保存,或者保存运行。

  4. 查看数据

  结果如图,但是数据是3页,所以总共有144条数据,前100条数据可以手动截取。得到的结果如下:

  

  5. 规则改进

  1.改为批量搜索关键字

  点击运行时,选择手动批量,输入关键字,每行是一个关键字列表,点击开始。

  

  2. 移除预操作节点操作

  可以直接进入搜索页面编辑规则,将地址改为变量,然后手动批量输入地址,可以节省部分前期操作时间。

  3.100多会直接结束

  我们可以通过全局条件触发器来实现,如图,新建一个条件触发器,选择输出行并结束

  

  满足条件时采集行号等于100。

  

  6.后记

  因为我不确定需要什么数据,所以我只采集这些。有需要的可以私信。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线