网页文章采集工具(如何用爬一爬数据采集器采集亚马逊图书评论数以及星级)

优采云发布时间: 2022-02-02 20:04

　　本文主要介绍如何利用爬虫数据采集器采集亚马逊书评和星级评分，从数据角度分析畅销书。

　　使用亚马逊图标爬上采集器图标

　　1.打开采集的网页，本文以亚马逊经济书为例。点击浏览器插件栏中的“爬取”图标启动插件。

　　2. 点击依次选择要捕获的元素。如果彩盒中没有收录所有任务数据，点击切换按钮切换算法，直到选中所有任务数据。

　　#本例使用点击模式

　　依次选择要采集的数据

　　3.如果要抓取多页信息，如下图，点击分页设置箭头，选择“下一步”，设置点击次数。

　　#注意：点击模式与选择“分页设置”时的自动模式不同，只能选择“下一页”按钮，不能选择所有页码。

　　选择页码所在区域

　　4.根据个人需要设置“加载时间”，默认加载时间大于等于0.5s。此示例将加载时间设置为 3 秒。

　　5. 先点击“完成”按钮，再点击“测试”按钮测试采集数据是否是你想要的。

　　#注意：测试模式下最多采集5页数据。

　　测试任务采集是否成功

　　6.确认测试成功后，点击“确定”按钮关闭测试窗口。填写任务名称（长度4-32个字符，必填），根据个人需要修改列名。

　　7.点击“提交”按钮，任务创建成功。您可以在官网的“任务”页面下运行和管理任务。

　　运行任务

　　8.任务完成后，点击官网“任务”页面的“数据”选项即可查看和下载数据。

　　查看数据

　　#Tips：如果数据采集为空，以下3个解决方案希望对你有所帮助。

　　1.设置下载器为js-engine

　　2.选择标签模式

　　3.将加载时间设置为更长。

0

2022-02-02

网页文章采集工具

0 个评论

要回复文章请先登录或注册