专知内容生产基石-数据爬取采集利器WebCollector 介绍
优采云 发布时间: 2022-06-06 04:20专知内容生产基石-数据爬取采集利器WebCollector 介绍
今天给大家介绍下我们专知数据采集系统的基石-WebCollector。作为主流JAVA开源爬虫框架(GitHub上1500+Stars),WebCollector轻量级、便于二次开发的特点得到了众多数开发者的选取与喜爱。特别与大家分享的是WebCollector的作者Hujunxianligong大神就是我们专知团队的成员。下面开始给大家简单介绍下WebCollector的特性以及在专知的应用。
WebCollector简介
WebCollector 是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的 API,只需编写配置少量代码即可实现一个功能强大的爬虫系统。WebCollector -Hadoop 是 WebCollector 的 Hadoop 版本,支持分布式爬取。
WebCollector入口:百度Google直接搜索 WebCollector即刻获取。
Github上地址:
1)内核构架图
WebCollector的任务执行流程如上,包括爬取任务生成更新调度管理、任务执行数据爬取、爬取数据信息抽取以及持久化存储。
2)WebCollector 2.x特性
WebCollector现已经为2.71版本,基本特性有:
3)WebCollector使用
在Eclipse、Netbeans、Intellij等IDE参照Github配制Maven即可使用,或者使用Jar包。
<p style="margin-left: 8px;margin-right: 8px;">
cn.edu.hfut.dmic.webcollector
WebCollector
2.71
</p>
自动爬取新闻网站的例子通过简单配制即可完成: