chrome插件网页抓取(谷歌插件:chromeCrawl插件解析)

优采云 发布时间: 2021-09-28 12:22

  chrome插件网页抓取(谷歌插件:chromeCrawl插件解析)

  普通爬虫:在代码中发送请求,然后从流中获取网页内容,解析网页内容得到相关信息。这种方法的优点是简单快捷,缺点是容易被拦截,故障率高。

  另一种方法是使用谷歌插件获取页面的所有内容,然后解析得到需要的信息。

  插件名称:chromeCrawl

  添加插件地址:点我

  

  如果无法获取谷歌应用网站,可以使用github上的手动安装教程:点我

  易于使用的插件

  安装后,浏览器右上角会看到已安装的图标:一共三个功能

  

  三个复选框的说明:

  打开爬取页面功能:勾选该复选框,才会向后台接口发送页面内容,同时接收数据接口出现

自动关闭页面:勾选该复选框,爬取页面完成后,页面自动关闭。

不显示多媒体资源:勾选该复选框,图片,视频,字体等资源将不加载,可以提高网页加载速度

备注:

接收数据接口:接收页面数据的接口,需要自己定义,默认http://localhost:8080/content,与 打开爬取页面功能 联动

  当开启抓取功能时,我们想要获取页面内容,我们可以这样设置:

  

  如果是java,可以这样接收后台:

  package com.molikam.shop.controller;

import java.util.concurrent.atomic.AtomicInteger;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.RequestMethod;

import org.springframework.web.bind.annotation.RestController;

@RestController

public class CrawlerController {

AtomicInteger count = new AtomicInteger(0);

@RequestMapping(value="/content",method={RequestMethod.POST})

public void getContent(String content){

System.out.println(count.incrementAndGet());

System.out.println(content);

}

}

  如果想看插件的具体代码或者自己添加更多需求,移步github下载:点我

  下载后,将内容添加到两个文件:background.js 和 content_script.js。如何编写谷歌插件可以在百度上找到。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线