java爬虫系列第一讲

优采云发布时间: 2020-05-04 08:02

　　java爬虫系列第一讲-爬虫入门1. 概述java爬虫系列包含什么内容？java爬虫框架webmgic入门使用webmgic爬取中的影片资源（动作影片列表页、电影下载地址等信息）使用webmgic爬取极客时间的课程资源（文章系列课程和视频系列的课程）本篇文章主要内容：介绍java中好用的爬虫框架java爬虫框架webmagic介绍使用webgic爬取动作影片列表信息2. java中好用的爬虫框架怎样判别框架是否优秀？容易学习和使用，网上对应的学习资料比较多，并且比较健全使用的人比较多，存在的坑他人早已帮你填的差不多了，用上去会更顺心一些框架更新比较快，社区活跃，可以快速体验一些更好的功能，并与作者进行交流框架稳定、方便扩充

　　按照以上几点的，推荐一款非常好用的java爬虫框架webmgic

　　3. webmgic介绍WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。webmagic官网：webmgic英文学习文档：4.使用webgic爬取动作影片列表

　　使用webgic爬取爱影片电影列表资源信息

　　示例源码地址

　　1. 新建springboot项目java-pachong

　　2. 导入maven配置

org.springframework.boot

spring-boot-starter

org.projectlombok

lombok

true

org.springframework.boot

spring-boot-starter-test

test

us.codecraft

webmagic-core

0.7.3

fastjson

com.alibaba

commons-io

fastjson

com.alibaba

fastjson

com.alibaba

log4j

slf4j-log4j12

org.slf4j

us.codecraft

webmagic-extension

0.7.3

us.codecraft

webmagic-selenium

0.7.3

net.minidev

json-smart

2.2.1

com.alibaba

fastjson

1.2.49

commons-lang

2.6

commons-io

2.6

commons-codec

1.11

commons-collections

3.2.2

　　3. 编写抓取影片数据的代码

　　在谷歌浏览器中访问爱影片动作片列表

　　F12发觉列表页中数据是通过一个ajax恳求获取的，我们获取恳求地址

　　编写抓取代码

　　package com.ady01.demo1;

import lombok.extern.slf4j.Slf4j;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

* description：第一个爬虫示例，爬去动作片列表信息

* <b>time：2019/4/20 10:58

* <b>author：ready likun_557@163.com

*/

@Slf4j

public class Ady01comPageProcessor implements PageProcessor {

@Override

public void process(Page page) {

log.info("爬取成功!");

log.info("爬取的内容：" + page.getRawText());

}

@Override

public Site getSite() {

return Site.me().setSleepTime(1000).setRetryTimes(3);

}

public static void main(String args) {

String url = "https://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";

Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();

}

　　4. 运行爬虫代码

　　运行Ady01comPageProcessor中的main方式java爬虫超级经典，执行结果如下：

　　5.总结本文中主要用了一个示例说明webgic是这么简单就可以完成数据的抓取工作java爬虫超级经典，从代码中可以看出复杂的代码webmagic都帮我们屏蔽了，只须要我们去关注业务代码的编撰。文章中没有详尽介webmagic怎样使用，至于我为什么没有在文档中去做说明，主要是webigc早已提供了十分健全的学习文档，可以移步到webgic英文文档，需要更深入了解的可以研究一下webgic的源码，对你编撰爬虫是十分有用的。明日我们将爬取每位动作影片详情页信息，采集详情页中影片的下载地址示例代码，导入到idea中运行，idea中须要安装maven和lombok的支持更多技术文章请关注公众号：javacode2018

0

2020-05-04

webmagic

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫系列第一讲

0 个评论

发起人