java爬虫系列第一讲

优采云 发布时间: 2020-05-04 08:02

  java爬虫系列第一讲-爬虫入门1. 概述java爬虫系列包含什么内容?java爬虫框架webmgic入门使用webmgic爬取 中的影片资源(动作影片列表页、电影下载地址等信息)使用webmgic爬取 极客时间 的课程资源(文章系列课程 和 视频系列的课程)本篇文章主要内容:介绍java中好用的爬虫框架java爬虫框架webmagic介绍使用webgic爬取动作影片列表信息2. java中好用的爬虫框架怎样判别框架是否优秀?容易学习和使用,网上对应的学习资料比较多,并且比较健全使用的人比较多,存在的坑他人早已帮你填的差不多了,用上去会更顺心一些框架更新比较快,社区活跃,可以快速体验一些更好的功能,并与作者进行交流框架稳定、方便扩充

  按照以上几点的,推荐一款非常好用的java爬虫框架webmgic

  3. webmgic介绍WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。webmagic官网:webmgic英文学习文档:4.使用webgic爬取动作影片列表

  使用webgic爬取 爱影片 电影列表资源信息

  示例源码地址

  1. 新建springboot项目java-pachong

  2. 导入maven配置

  

org.springframework.boot

spring-boot-starter

org.projectlombok

lombok

true

org.springframework.boot

spring-boot-starter-test

test

us.codecraft

webmagic-core

0.7.3

fastjson

com.alibaba

commons-io

commons-io

commons-io

commons-io

fastjson

com.alibaba

fastjson

com.alibaba

log4j

log4j

slf4j-log4j12

org.slf4j

us.codecraft

webmagic-extension

0.7.3

us.codecraft

webmagic-selenium

0.7.3

net.minidev

json-smart

2.2.1

com.alibaba

fastjson

1.2.49

commons-lang

commons-lang

2.6

commons-io

commons-io

2.6

commons-codec

commons-codec

1.11

commons-collections

commons-collections

3.2.2

  3. 编写抓取影片数据的代码

  在谷歌浏览器中访问 爱影片动作片列表

  F12发觉列表页中数据是通过一个ajax恳求获取的,我们获取恳求地址

  编写抓取代码

  package com.ady01.demo1;

import lombok.extern.slf4j.Slf4j;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

* description:第一个爬虫示例,爬去动作片列表信息

* <b>time:2019/4/20 10:58

* <b>author:ready likun_557@163.com

*/

@Slf4j

public class Ady01comPageProcessor implements PageProcessor {

@Override

public void process(Page page) {

log.info("爬取成功!");

log.info("爬取的内容:" + page.getRawText());

}

@Override

public Site getSite() {

return Site.me().setSleepTime(1000).setRetryTimes(3);

}

public static void main(String args) {

String url = "https://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";

Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();

}

}

  4. 运行爬虫代码

  运行Ady01comPageProcessor中的main方式java爬虫超级经典,执行结果如下:

  5.总结本文中主要用了一个示例说明webgic是这么简单就可以完成数据的抓取工作java爬虫超级经典,从代码中可以看出复杂的代码webmagic都帮我们屏蔽了,只须要我们去关注业务代码的编撰。文章中没有详尽介webmagic怎样使用,至于我为什么没有在文档中去做说明,主要是webigc早已提供了十分健全的学习文档,可以移步到webgic英文文档,需要更深入了解的可以研究一下webgic的源码,对你编撰爬虫是十分有用的。明日我们将爬取每位动作影片详情页信息,采集详情页中影片的下载地址示例代码,导入到idea中运行,idea中须要安装maven和lombok的支持更多技术文章请关注公众号:javacode2018

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线