spider: 一个基于webmagic框架二次开发的java爬虫框架实战

优采云发布时间: 2020-08-20 08:25

　　JAVA爬虫框架实战

　　基于webmagic框架二次开发的java爬虫框架实战，已实现能爬取腾讯，搜狐，今日头条（单独集成功能，教程学习地址）等资讯内容，配合elasticsearch框架用法，实现了手动爬虫，已投入生产试用中。

　　后台管理统计系统源码

　　体验系统地址：:8280/manage/login.jsp

　　体验帐号/密码，test1001/a12345678

　　后台系统源码：

　　关于我

　　欢迎交流问题，可加我的个人QQ 469580884，或群号 751925591，一起阐述交流问题

　　我的博客地址

　　个人域名

　　感谢

　　如果认为内容赞，您可以请我吃一杯奶茶：

　　参考项目资料如下：

　　欢迎使用 Gather Platform 数据采集与剖析平台

　　Readme in English

　　详细使用方式请参考在线文档

　　Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

　　5分钟即可布署完毕,半分钟即可完成一个爬虫,开始数据采集.、

　　不需要进行任何编码就可以完成一个功能强悍的爬虫.

　　Windows/Mac/Linux 全平台支持

　　本系统须要如下依赖:

　　可选依赖组件:

　　- Elasticsearch 5.0

　　部署、使用方式、二次开发指南、常见问题等全部迁移至在线文档

0

2020-08-20

资讯内容采集系统

0 个评论

要回复文章请先登录或注册