java爬虫抓取动态网页(java中好用的爬虫框架java爬虫系列包含哪些内容?)
优采云 发布时间: 2021-09-21 23:13java爬虫抓取动态网页(java中好用的爬虫框架java爬虫系列包含哪些内容?)
1.overview Java爬虫系列收录哪些内容?Java爬虫框架简介webmgic使用webmgic抓取爱情电影中的电影资源(动作电影列表页面、电影下载地址等)使用webmgic抓取极客时代的课程资源(文章系列课程和视频系列课程)
本文的文章主要内容是介绍Java中易于使用的爬虫框架。Java crawler框架webmatic介绍了webgic的使用,以抓取动作电影列表信息
2.如何判断爬虫框架在Java中是否优秀?它易于学习和使用。网络上有很多相应的学习资料,比较完善,被很多人使用。现有坑已由其他人填充。使用起来会更舒适。该框架将更快地更新,社区将更加活跃。您可以快速体验一些更好的功能,并与作者交流。该框架结构稳定,扩展方便
根据以上几点,我们推荐一个非常易于使用的Java爬虫框架webmgic
3.webmgic简介
4.使用webgic抓取动作电影列表
使用webgic抓取爱情电影列表的资源信息
示例源代码地址1.createanewspringboot项目javapachong
2.import-Maven配置
org.springframework.boot
spring-boot-starter
org.projectlombok
lombok
true
org.springframework.boot
spring-boot-starter-test
test
us.codecraft
webmagic-core
0.7.3
fastjson
com.alibaba
commons-io
commons-io
commons-io
commons-io
fastjson
com.alibaba
fastjson
com.alibaba
log4j
log4j
slf4j-log4j12
org.slf4j
us.codecraft
webmagic-extension
0.7.3
us.codecraft
webmagic-selenium
0.7.3
net.minidev
json-smart
2.2.1
com.alibaba
fastjson
1.2.49
commons-lang
commons-lang
2.6
commons-io
commons-io
2.6
commons-codec
commons-codec
1.11
commons-collections
commons-collections
3.2.2
3.编写代码以捕获电影数据
package com.ady01.demo1;
import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
/**
* description:第一个爬虫示例,爬去动作片列表信息
* <b>time:2019/4/20 10:58
* <b>author:ready likun_557@163.com
*/
@Slf4j
public class Ady01comPageProcessor implements PageProcessor {
@Override
public void process(Page page) {
log.info("爬取成功!");
log.info("爬取的内容:" + page.getRawText());
}
@Override
public Site getSite() {
return Site.me().setSleepTime(1000).setRetryTimes(3);
}
public static void main(String[] args) {
String url = "http://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";
Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();
}
}
4.runcrawler代码
在ady01compageprocessor中运行main方法,执行结果如下:
5.summary本文主要使用一个示例来说明webgic非常简单,可以完成数据捕获。从代码中可以看出,复杂的代码webmagic屏蔽了我们。我们只需要注意编写业务代码文章并没有详细说明如何使用webmagic。至于我为什么没有在文档中解释,主要是webigc提供了一个非常完美的学习文档。您可以转到webmagic的中文文档。如果您需要更深入的了解,可以学习webmagic的源代码,这对您编写爬虫程序非常有用。明天我们将抓取每一部动作片的详细页面信息,采集下载详细页面的页面地址代码,导入idea,idea需要Maven和Lombok支持,更多技术文章请注意官方账号:javacode2018