专知内容生产基石-数据爬取采集利器WebCollector 介绍

优采云 发布时间: 2022-06-06 04:20

  专知内容生产基石-数据爬取采集利器WebCollector 介绍

  今天给大家介绍下我们专知数据采集系统的基石-WebCollector。作为主流JAVA开源爬虫框架(GitHub上1500+Stars),WebCollector轻量级、便于二次开发的特点得到了众多数开发者的选取与喜爱。特别与大家分享的是WebCollector的作者Hujunxianligong大神就是我们专知团队的成员。下面开始给大家简单介绍下WebCollector的特性以及在专知的应用。

  WebCollector简介

  WebCollector 是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的 API,只需编写配置少量代码即可实现一个功能强大的爬虫系统。WebCollector -Hadoop 是 WebCollector 的 Hadoop 版本,支持分布式爬取。

  WebCollector入口:百度Google直接搜索 WebCollector即刻获取。

  Github上地址:

  1)内核构架图

  

  WebCollector的任务执行流程如上,包括爬取任务生成更新调度管理、任务执行数据爬取、爬取数据信息抽取以及持久化存储。

  2)WebCollector 2.x特性

  WebCollector现已经为2.71版本,基本特性有:

  3)WebCollector使用

  在Eclipse、Netbeans、Intellij等IDE参照Github配制Maven即可使用,或者使用Jar包。

  <p style="margin-left: 8px;margin-right: 8px;">

   cn.edu.hfut.dmic.webcollector

   WebCollector

   2.71

</p>

  自动爬取新闻网站的例子通过简单配制即可完成:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线