专知内容生产基石-数据爬取采集利器WebCollector 介绍

优采云发布时间: 2022-06-06 04:20

　　今天给大家介绍下我们专知数据采集系统的基石-WebCollector。作为主流JAVA开源爬虫框架（GitHub上1500+Stars），WebCollector轻量级、便于二次开发的特点得到了众多数开发者的选取与喜爱。特别与大家分享的是WebCollector的作者Hujunxianligong大神就是我们专知团队的成员。下面开始给大家简单介绍下WebCollector的特性以及在专知的应用。

　　WebCollector简介

　　WebCollector 是一个无须配置、便于二次开发的Java爬虫框架（内核），它提供精简的的 API，只需编写配置少量代码即可实现一个功能强大的爬虫系统。WebCollector -Hadoop 是 WebCollector 的 Hadoop 版本，支持分布式爬取。

　　WebCollector入口：百度Google直接搜索 WebCollector即刻获取。

　　Github上地址：

　　1）内核构架图

　　WebCollector的任务执行流程如上，包括爬取任务生成更新调度管理、任务执行数据爬取、爬取数据信息抽取以及持久化存储。

　　2）WebCollector 2.x特性

　　WebCollector现已经为2.71版本，基本特性有：

　　3）WebCollector使用

　　在Eclipse、Netbeans、Intellij等IDE参照Github配制Maven即可使用，或者使用Jar包。

cn.edu.hfut.dmic.webcollector

WebCollector

2.71

</p>

　　自动爬取新闻网站的例子通过简单配制即可完成：

0

2022-06-06

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

专知内容生产基石-数据爬取采集利器WebCollector 介绍

0 个评论

发起人

AI时代内容工厂

专知内容生产基石-数据爬取采集利器WebCollector 介绍

0 个评论

发起人

相关问题