java爬虫系列第一讲
优采云 发布时间: 2020-05-04 08:02java爬虫系列第一讲-爬虫入门1. 概述java爬虫系列包含什么内容?java爬虫框架webmgic入门使用webmgic爬取 中的影片资源(动作影片列表页、电影下载地址等信息)使用webmgic爬取 极客时间 的课程资源(文章系列课程 和 视频系列的课程)本篇文章主要内容:介绍java中好用的爬虫框架java爬虫框架webmagic介绍使用webgic爬取动作影片列表信息2. java中好用的爬虫框架怎样判别框架是否优秀?容易学习和使用,网上对应的学习资料比较多,并且比较健全使用的人比较多,存在的坑他人早已帮你填的差不多了,用上去会更顺心一些框架更新比较快,社区活跃,可以快速体验一些更好的功能,并与作者进行交流框架稳定、方便扩充
按照以上几点的,推荐一款非常好用的java爬虫框架webmgic
3. webmgic介绍WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。webmagic官网:webmgic英文学习文档:4.使用webgic爬取动作影片列表
使用webgic爬取 爱影片 电影列表资源信息
示例源码地址
1. 新建springboot项目java-pachong
2. 导入maven配置
org.springframework.boot
spring-boot-starter
org.projectlombok
lombok
true
org.springframework.boot
spring-boot-starter-test
test
us.codecraft
webmagic-core
0.7.3
fastjson
com.alibaba
commons-io
commons-io
commons-io
commons-io
fastjson
com.alibaba
fastjson
com.alibaba
log4j
log4j
slf4j-log4j12
org.slf4j
us.codecraft
webmagic-extension
0.7.3
us.codecraft
webmagic-selenium
0.7.3
net.minidev
json-smart
2.2.1
com.alibaba
fastjson
1.2.49
commons-lang
commons-lang
2.6
commons-io
commons-io
2.6
commons-codec
commons-codec
1.11
commons-collections
commons-collections
3.2.2
3. 编写抓取影片数据的代码
在谷歌浏览器中访问 爱影片动作片列表
F12发觉列表页中数据是通过一个ajax恳求获取的,我们获取恳求地址
编写抓取代码
package com.ady01.demo1;
import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
/**
* description:第一个爬虫示例,爬去动作片列表信息
* <b>time:2019/4/20 10:58
* <b>author:ready likun_557@163.com
*/
@Slf4j
public class Ady01comPageProcessor implements PageProcessor {
@Override
public void process(Page page) {
log.info("爬取成功!");
log.info("爬取的内容:" + page.getRawText());
}
@Override
public Site getSite() {
return Site.me().setSleepTime(1000).setRetryTimes(3);
}
public static void main(String args) {
String url = "https://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";
Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();
}
}
4. 运行爬虫代码
运行Ady01comPageProcessor中的main方式java爬虫超级经典,执行结果如下:
5.总结本文中主要用了一个示例说明webgic是这么简单就可以完成数据的抓取工作java爬虫超级经典,从代码中可以看出复杂的代码webmagic都帮我们屏蔽了,只须要我们去关注业务代码的编撰。文章中没有详尽介webmagic怎样使用,至于我为什么没有在文档中去做说明,主要是webigc早已提供了十分健全的学习文档,可以移步到webgic英文文档,需要更深入了解的可以研究一下webgic的源码,对你编撰爬虫是十分有用的。明日我们将爬取每位动作影片详情页信息,采集详情页中影片的下载地址示例代码,导入到idea中运行,idea中须要安装maven和lombok的支持更多技术文章请关注公众号:javacode2018