采集工具免责说明(本文介绍使用优采云采集亚马逊排行榜的方法采集数据说明 )

优采云 发布时间: 2022-02-17 20:19

  采集工具免责说明(本文介绍使用优采云采集亚马逊排行榜的方法采集数据说明

)

  本文介绍如何使用优采云采集亚马逊排行榜(以礼品卡为例)

  采集网站:

  使用功能点:

  lAjax点击

  /tutorial/ajaxdjfy_7.aspx?t=1

  lXpath修改

  亚马逊:亚马逊是美国最大的在线电子商务公司,位于华盛顿州西雅图。亚马逊和其他卖家为客户提供数以百万计独特的全新、翻新和二手商品,例如书籍、电影、音乐和游戏、数字下载、电子产品和电脑、家居和花园用品、玩具、婴儿用品、食品、服装、鞋类和珠宝、健康及个人护理产品、运动及户外用品、玩具、汽车及工业产品等。

  亚马逊采集数据说明:本文收录亚马逊-礼品卡销售排名的产品信息采集。本文仅以“亚马逊-产品信息采集”为例。实际操作中,您可以根据自己的需要替换亚马逊其他内容获取数据采集。

  亚马逊采集 字段详情:商品标题、商品评论星级、商品评论数量、商品价格。

  第 1 步:创建一个 采集 任务

  1)进入主界面,选择“自定义采集”

  

  2)复制你想要采集的网站的网址并粘贴到输入框中,点击“保存网址”

  

  第 2 步:创建翻页循环

  1)将页面向下滚动到底部,点击“1-20”,然后在右侧提示框中选择“全选”

  

  2)然后在右侧的操作提示框中,选择“循环遍历每个链接”

  

  第三步:提取商品信息1)移动鼠标选择页面上的第一个商品内容。选择后,评价框会变成绿色,里面的字段会变成红色。在右侧的操作提示框中选择“选择子元素”

  

  2) 然后选择“全选”

  

  第 4 步:Ajax 点击

  1)由于本网络使用Ajax技术脚本,我们可以设置“点击元素”时Ajax点击加载,如下图,左侧流程规则中鼠标先点击“点击元素”,然后打开高级选项进行设置,在AJax加载项中勾选AJax加载数据,超时时间为2秒,

  

  注意:AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。

  性能特点:1、点击网页中的一个选项,大部分网站网址不会改变;2 网页没有完全加载,只是部分加载了数据,数据发生了变化。

  如何验证:点击操作后,在浏览器中,URL输入栏不会出现在加载状态或圆圈状态。

  第 5 步:修改 Xpath

  点击左上角的“保存并启动”,选择“启动本地采集”。采集过程中,我们发现采集的数据有很多重复。手动运行并检查整个采集流程,我们发现在翻页周期中数据没有定位到下一页。所以需要修改Xpath

  1)选择第一个“循环”步骤,打开高级选项,查看固定元素列表的文本。可以看到第一项的格式和下面的不一样,所以参考下面修改第一项的格式

  

  2)修改后文本列表如下图

  

  3)然后选择“Save and Launch”启动本地采集,再次采集data

  

  第 5 步:数据采集 和导出

  1)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好的数据

  

  2)这里我们选择excel作为导出格式

  

  导出的数据如下

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线