java爬虫抓取动态网页(java中好用的爬虫框架java爬虫系列包含哪些内容?)

优采云 发布时间: 2021-09-21 23:13

  java爬虫抓取动态网页(java中好用的爬虫框架java爬虫系列包含哪些内容?)

  1.overview Java爬虫系列收录哪些内容?Java爬虫框架简介webmgic使用webmgic抓取爱情电影中的电影资源(动作电影列表页面、电影下载地址等)使用webmgic抓取极客时代的课程资源(文章系列课程和视频系列课程)

  本文的文章主要内容是介绍Java中易于使用的爬虫框架。Java crawler框架webmatic介绍了webgic的使用,以抓取动作电影列表信息

  2.如何判断爬虫框架在Java中是否优秀?它易于学习和使用。网络上有很多相应的学习资料,比较完善,被很多人使用。现有坑已由其他人填充。使用起来会更舒适。该框架将更快地更新,社区将更加活跃。您可以快速体验一些更好的功能,并与作者交流。该框架结构稳定,扩展方便

  根据以上几点,我们推荐一个非常易于使用的Java爬虫框架webmgic

  3.webmgic简介

  4.使用webgic抓取动作电影列表

  使用webgic抓取爱情电影列表的资源信息

  示例源代码地址1.createanewspringboot项目javapachong

  

  2.import-Maven配置

  

org.springframework.boot

spring-boot-starter

org.projectlombok

lombok

true

org.springframework.boot

spring-boot-starter-test

test

us.codecraft

webmagic-core

0.7.3

fastjson

com.alibaba

commons-io

commons-io

commons-io

commons-io

fastjson

com.alibaba

fastjson

com.alibaba

log4j

log4j

slf4j-log4j12

org.slf4j

us.codecraft

webmagic-extension

0.7.3

us.codecraft

webmagic-selenium

0.7.3

net.minidev

json-smart

2.2.1

com.alibaba

fastjson

1.2.49

commons-lang

commons-lang

2.6

commons-io

commons-io

2.6

commons-codec

commons-codec

1.11

commons-collections

commons-collections

3.2.2

  3.编写代码以捕获电影数据

  package com.ady01.demo1;

import lombok.extern.slf4j.Slf4j;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

* description:第一个爬虫示例,爬去动作片列表信息

* <b>time:2019/4/20 10:58

* <b>author:ready likun_557@163.com

*/

@Slf4j

public class Ady01comPageProcessor implements PageProcessor {

@Override

public void process(Page page) {

log.info("爬取成功!");

log.info("爬取的内容:" + page.getRawText());

}

@Override

public Site getSite() {

return Site.me().setSleepTime(1000).setRetryTimes(3);

}

public static void main(String[] args) {

String url = "http://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";

Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();

}

}

  4.runcrawler代码

  在ady01compageprocessor中运行main方法,执行结果如下:

  

  5.summary本文主要使用一个示例来说明webgic非常简单,可以完成数据捕获。从代码中可以看出,复杂的代码webmagic屏蔽了我们。我们只需要注意编写业务代码文章并没有详细说明如何使用webmagic。至于我为什么没有在文档中解释,主要是webigc提供了一个非常完美的学习文档。您可以转到webmagic的中文文档。如果您需要更深入的了解,可以学习webmagic的源代码,这对您编写爬虫程序非常有用。明天我们将抓取每一部动作片的详细页面信息,采集下载详细页面的页面地址代码,导入idea,idea需要Maven和Lombok支持,更多技术文章请注意官方账号:javacode2018

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线