java爬虫抓取动态网页(java中好用的爬虫框架java爬虫系列包含哪些内容？)

优采云发布时间: 2021-09-21 23:13

　　1.overview Java爬虫系列收录哪些内容？Java爬虫框架简介webmgic使用webmgic抓取爱情电影中的电影资源（动作电影列表页面、电影下载地址等）使用webmgic抓取极客时代的课程资源（文章系列课程和视频系列课程）

　　本文的文章主要内容是介绍Java中易于使用的爬虫框架。Java crawler框架webmatic介绍了webgic的使用，以抓取动作电影列表信息

　　2.如何判断爬虫框架在Java中是否优秀？它易于学习和使用。网络上有很多相应的学习资料，比较完善，被很多人使用。现有坑已由其他人填充。使用起来会更舒适。该框架将更快地更新，社区将更加活跃。您可以快速体验一些更好的功能，并与作者交流。该框架结构稳定，扩展方便

　　根据以上几点，我们推荐一个非常易于使用的Java爬虫框架webmgic

　　3.webmgic简介

　　4.使用webgic抓取动作电影列表

　　使用webgic抓取爱情电影列表的资源信息

　　示例源代码地址1.createanewspringboot项目javapachong

　　2.import-Maven配置

org.springframework.boot

spring-boot-starter

org.projectlombok

lombok

true

org.springframework.boot

spring-boot-starter-test

test

us.codecraft

webmagic-core

0.7.3

fastjson

com.alibaba

commons-io

fastjson

com.alibaba

fastjson

com.alibaba

log4j

slf4j-log4j12

org.slf4j

us.codecraft

webmagic-extension

0.7.3

us.codecraft

webmagic-selenium

0.7.3

net.minidev

json-smart

2.2.1

com.alibaba

fastjson

1.2.49

commons-lang

2.6

commons-io

2.6

commons-codec

1.11

commons-collections

3.2.2

　　3.编写代码以捕获电影数据

　　package com.ady01.demo1;

import lombok.extern.slf4j.Slf4j;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

* description：第一个爬虫示例，爬去动作片列表信息

* <b>time：2019/4/20 10:58

* <b>author：ready likun_557@163.com

*/

@Slf4j

public class Ady01comPageProcessor implements PageProcessor {

@Override

public void process(Page page) {

log.info("爬取成功!");

log.info("爬取的内容：" + page.getRawText());

}

@Override

public Site getSite() {

return Site.me().setSleepTime(1000).setRetryTimes(3);

}

public static void main(String[] args) {

String url = "http://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";

Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();

}

　　4.runcrawler代码

　　在ady01compageprocessor中运行main方法，执行结果如下：

　　5.summary本文主要使用一个示例来说明webgic非常简单，可以完成数据捕获。从代码中可以看出，复杂的代码webmagic屏蔽了我们。我们只需要注意编写业务代码文章并没有详细说明如何使用webmagic。至于我为什么没有在文档中解释，主要是webigc提供了一个非常完美的学习文档。您可以转到webmagic的中文文档。如果您需要更深入的了解，可以学习webmagic的源代码，这对您编写爬虫程序非常有用。明天我们将抓取每一部动作片的详细页面信息，采集下载详细页面的页面地址代码，导入idea，idea需要Maven和Lombok支持，更多技术文章请注意官方账号：javacode2018

0

2021-09-21

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取动态网页(java中好用的爬虫框架java爬虫系列包含哪些内容？)

0 个评论

发起人

AI时代内容工厂

java爬虫抓取动态网页(java中好用的爬虫框架java爬虫系列包含哪些内容？)

0 个评论

发起人

相关问题