spider: 一个基于webmagic框架二次开发的java爬虫框架实战
优采云 发布时间: 2020-08-20 08:25spider: 一个基于webmagic框架二次开发的java爬虫框架实战
JAVA爬虫框架实战
基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能,教程学习地址)等资讯内容,配合elasticsearch框架用法,实现了手动爬虫,已投入生产试用中。
后台管理统计系统源码
体验系统地址::8280/manage/login.jsp
体验帐号/密码,test1001/a12345678
后台系统源码:
关于我
欢迎交流问题,可加我的个人QQ 469580884,或群号 751925591,一起阐述交流问题
我的博客地址
个人域名
感谢
如果认为内容赞,您可以请我吃一杯奶茶:
参考项目资料如下:
欢迎使用 Gather Platform 数据采集与剖析平台
Readme in English
详细使用方式请参考 在线文档
Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能
5分钟即可布署完毕,半分钟即可完成一个爬虫,开始数据采集.、
不需要进行任何编码就可以完成一个功能强悍的爬虫.
Windows/Mac/Linux 全平台支持
本系统须要如下依赖:
可选依赖组件:
- Elasticsearch 5.0
部署、使用方式、二次开发指南、常见问题等全部迁移至在线文档