网页文章采集工具(如何用爬一爬数据采集器采集亚马逊图书评论数以及星级)
优采云 发布时间: 2022-02-02 20:04网页文章采集工具(如何用爬一爬数据采集器采集亚马逊图书评论数以及星级)
本文主要介绍如何利用爬虫数据采集器采集亚马逊书评和星级评分,从数据角度分析畅销书。
使用亚马逊图标爬上 采集器 图标
1.打开采集的网页,本文以亚马逊经济书为例。点击浏览器插件栏中的“爬取”图标启动插件。
2. 点击依次选择要捕获的元素。如果彩盒中没有收录所有任务数据,点击切换按钮切换算法,直到选中所有任务数据。
#本例使用点击模式
依次选择要采集的数据
3.如果要抓取多页信息,如下图,点击分页设置箭头,选择“下一步”,设置点击次数。
#注意:点击模式与选择“分页设置”时的自动模式不同,只能选择“下一页”按钮,不能选择所有页码。
选择页码所在区域
4.根据个人需要设置“加载时间”,默认加载时间大于等于0.5s。此示例将加载时间设置为 3 秒。
5. 先点击“完成”按钮,再点击“测试”按钮测试采集数据是否是你想要的。
#注意:测试模式下最多采集5页数据。
测试任务 采集 是否成功
6.确认测试成功后,点击“确定”按钮关闭测试窗口。填写任务名称(长度4-32个字符,必填),根据个人需要修改列名。
7.点击“提交”按钮,任务创建成功。您可以在官网的“任务”页面下运行和管理任务。
运行任务
8.任务完成后,点击官网“任务”页面的“数据”选项即可查看和下载数据。
查看数据
#Tips:如果数据采集为空,以下3个解决方案希望对你有所帮助。
1.设置下载器为js-engine
2.选择标签模式
3.将加载时间设置为更长。