网页文章采集工具(如何用爬一爬数据采集器采集亚马逊图书评论数以及星级)

优采云 发布时间: 2022-02-02 20:04

  网页文章采集工具(如何用爬一爬数据采集器采集亚马逊图书评论数以及星级)

  本文主要介绍如何利用爬虫数据采集器采集亚马逊书评和星级评分,从数据角度分析畅销书。

  

  使用亚马逊图标爬上 采集器 图标

  1.打开采集的网页,本文以亚马逊经济书为例。点击浏览器插件栏中的“爬取”图标启动插件。

  2. 点击依次选择要捕获的元素。如果彩盒中没有收录所有任务数据,点击切换按钮切换算法,直到选中所有任务数据。

  #本例使用点击模式

  

  依次选择要采集的数据

  3.如果要抓取多页信息,如下图,点击分页设置箭头,选择“下一步”,设置点击次数。

  #注意:点击模式与选择“分页设置”时的自动模式不同,只能选择“下一页”按钮,不能选择所有页码。

  

  选择页码所在区域

  4.根据个人需要设置“加载时间”,默认加载时间大于等于0.5s。此示例将加载时间设置为 3 秒。

  5. 先点击“完成”按钮,再点击“测试”按钮测试采集数据是否是你想要的。

  #注意:测试模式下最多采集5页数据。

  

  测试任务 采集 是否成功

  6.确认测试成功后,点击“确定”按钮关闭测试窗口。填写任务名称(长度4-32个字符,必填),根据个人需要修改列名。

  7.点击“提交”按钮,任务创建成功。您可以在官网的“任务”页面下运行和管理任务。

  

  运行任务

  8.任务完成后,点击官网“任务”页面的“数据”选项即可查看和下载数据。

  

  查看数据

  #Tips:如果数据采集为空,以下3个解决方案希望对你有所帮助。

  1.设置下载器为js-engine

  2.选择标签模式

  3.将加载时间设置为更长。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线