chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)

优采云 发布时间: 2021-09-12 04:07

  chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)

  做电商的时候,消费者对产品的评价很重要,但是如果你不会写代码怎么办?有一个Chrome插件,不用写一行代码,就可以做简单的数据爬取。下面显示了一些捕获的数据:

  

  可以看到抓取到的地址、评论者、评论内容、时间、商品颜色都被抓取了。那么,需要哪些工具来抓取这些数据呢?只有两个:

  1. Chrome 浏览器;

  2. 插件:网络爬虫

  插件下载链接:

  最后,如果你想自己抢,这里是这次抢的详细过程:

  1. 首先复制以下代码。是的,您不需要编写代码,但是为了开始,仍然需要复制代码。以后可以自己自定义选择,不用写代码。

  {

  "_id": "jdreview",

  "startUrl": [

  ""

  ],

  “选择器”:[

  {

  "id": "用户",

  "type": "SelectorText",

  "selector": "div.user-info",

  “父选择器”:[

  “主要”

  ],

  "multiple": false,

  "正则表达式":"",

  “延迟”:0

  },

  {

  "id": "评论",

  "type": "SelectorText",

  "selector": "ment-column> ment-con",

  “父选择器”:[

  “主要”

  ],

  "multiple": false,

  "正则表达式":"",

  “延迟”:0

  },

  {

  "id": "时间",

  "type": "SelectorText",

  "selector": "ment-message:nth-of-type(5)span:nth-of-type(4), div.order-info span:nth-of-type(4)" ,

  “父选择器”:[

  “主要”

  ],

  "multiple": false,

  "正则表达式":"",

  “延迟”:“0”

  },

  {

  "id": "颜色",

  "type": "SelectorText",

  "selector": "div.order-info span:nth-of-type(1)",

  “父选择器”:[

  “主要”

  ],

  "multiple": false,

  "正则表达式":"",

  “延迟”:0

  },

  {

  "id": "main",

  "type": "SelectorElementClick",

  "selector": "ment-item",

  “父选择器”:[

  "_root"

  ],

  "multiple": 真,

  "延迟": "10000",

  "clickElementSelector": "-table-footer a.ui-pager-next",

  "clickType": "clickMore",

  "discardInitialElements": false,

  "clickElementUniquenessType": "uniqueHTMLText"

  }

  ]

  }

  2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

  

  3.如下

  

  4. 如图,粘贴上面的代码:

  

  5. 如图,如果需要自定义URL,注意替换即可。 URL 后面的#comment 是评论的链接,不能删除:

  

  6.如图:

  

  7.如图:

  

  8. 如图,点击Scrape后会自动运行打开需要抓取的页面。不要关闭窗口,安静地等待完成。完成后,右下角会提示完成。一般1000以内的评论不会有问题:

  

  9.最后点击下载到电脑,数据就会保存。

  

  使用此工具的优点是:

  1.无需编程;

  2.京东的评论基本可以用这个脚本,修改对应的url即可;

  3.如果需要抓取的评论少于1000条,这个工具会很好,所有数据都会自动下载;

  使用注意事项:

  1. 抓取一次的数据会被记录下来,如果立即再次抓取,则不会保存。建议关闭浏览器重新打开再试试;

  2.抓取次数:1000以内没有问题,可能是京东直接根据IP屏蔽了更多的抓取;

  如果你的英文水平不错,可以尝试阅读官方文档,进一步学习定制自己的爬虫。

  官方教程:

  以上是本文的全部内容。希望对大家的学习有所帮助,希望大家多多支持。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线