采集工具免责说明(本文介绍使用优采云采集亚马逊排行榜的方法采集数据说明 )
优采云 发布时间: 2022-02-17 20:19采集工具免责说明(本文介绍使用优采云采集亚马逊排行榜的方法采集数据说明
)
本文介绍如何使用优采云采集亚马逊排行榜(以礼品卡为例)
采集网站:
使用功能点:
lAjax点击
/tutorial/ajaxdjfy_7.aspx?t=1
lXpath修改
亚马逊:亚马逊是美国最大的在线电子商务公司,位于华盛顿州西雅图。亚马逊和其他卖家为客户提供数以百万计独特的全新、翻新和二手商品,例如书籍、电影、音乐和游戏、数字下载、电子产品和电脑、家居和花园用品、玩具、婴儿用品、食品、服装、鞋类和珠宝、健康及个人护理产品、运动及户外用品、玩具、汽车及工业产品等。
亚马逊采集数据说明:本文收录亚马逊-礼品卡销售排名的产品信息采集。本文仅以“亚马逊-产品信息采集”为例。实际操作中,您可以根据自己的需要替换亚马逊其他内容获取数据采集。
亚马逊采集 字段详情:商品标题、商品评论星级、商品评论数量、商品价格。
第 1 步:创建一个 采集 任务
1)进入主界面,选择“自定义采集”
2)复制你想要采集的网站的网址并粘贴到输入框中,点击“保存网址”
第 2 步:创建翻页循环
1)将页面向下滚动到底部,点击“1-20”,然后在右侧提示框中选择“全选”
2)然后在右侧的操作提示框中,选择“循环遍历每个链接”
第三步:提取商品信息1)移动鼠标选择页面上的第一个商品内容。选择后,评价框会变成绿色,里面的字段会变成红色。在右侧的操作提示框中选择“选择子元素”
2) 然后选择“全选”
第 4 步:Ajax 点击
1)由于本网络使用Ajax技术脚本,我们可以设置“点击元素”时Ajax点击加载,如下图,左侧流程规则中鼠标先点击“点击元素”,然后打开高级选项进行设置,在AJax加载项中勾选AJax加载数据,超时时间为2秒,
注意:AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。
性能特点:1、点击网页中的一个选项,大部分网站网址不会改变;2 网页没有完全加载,只是部分加载了数据,数据发生了变化。
如何验证:点击操作后,在浏览器中,URL输入栏不会出现在加载状态或圆圈状态。
第 5 步:修改 Xpath
点击左上角的“保存并启动”,选择“启动本地采集”。采集过程中,我们发现采集的数据有很多重复。手动运行并检查整个采集流程,我们发现在翻页周期中数据没有定位到下一页。所以需要修改Xpath
1)选择第一个“循环”步骤,打开高级选项,查看固定元素列表的文本。可以看到第一项的格式和下面的不一样,所以参考下面修改第一项的格式
2)修改后文本列表如下图
3)然后选择“Save and Launch”启动本地采集,再次采集data
第 5 步:数据采集 和导出
1)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好的数据
2)这里我们选择excel作为导出格式
导出的数据如下