网页文章采集器(丑牛迷你采集器(Frontier)配置参数(CrawlScope))

优采云 发布时间: 2022-01-03 23:18

  网页文章采集器(丑牛迷你采集器(Frontier)配置参数(CrawlScope))

  CowSwing 简介

  丑牛Mini采集器是一款基于Java Swing开发的专业网络数据采集/信息挖掘处理软件。通过灵活的配置,可以方便快捷的抓取网页中的结构文本、图片、文件等资源信息可以进行编辑过滤发布到网站

  软件架构

  JAVACOO-CRAWLER 采用模块化设计,每个模块由一个控制器类(CrawlController 类)协调,控制器是爬虫的核心。

  CrawlController类是整个爬虫的整体控制器,控制着整个采集工作的起点,决定采集任务的开始、暂停、继续、结束。

  CrawlController类主要包括以下模块:爬虫的配置参数、字符集助手、HttpCilent对象、HTML解析器包装类、爬虫边界控制器、爬虫线程控制器、处理器链、过滤器工厂,整体*敏*感*词*如下:

  

  CrawlScope:存放当前爬虫配置信息,如采集页面编码、采集过滤列表、采集*敏*感*词*列表、爬虫持久化对象实现类等,CrawlController初始化其他模块根据配置参数。字符集助手(CharsetHandler):根据当前爬虫配置参数中的字符集配置进行初始化,为整个采集流程做准备。 HttpCilent对象(HttpClient):根据当前爬虫配置参数初始化HttpClient对象,如设置代理、设置连接/请求超时、最大连接数等。 HTML解析器包装类(HtmlParserWrapper):对HtmlParser的专门封装解析器来满足采集 任务的需要。 Frontier:主要加载爬取的*敏*感*词*链接,并根据加载的*敏*感*词*链接初始化任务队列,供线程控制器(ProcessorManager)启动的任务执行线程(ProcessorThread)使用。爬虫线程控制器(ProcessorManager):主要控制任务执行线程的数量,开启指定数量的任务执行线程来执行任务。过滤器工厂:为采集任务查询注册当前爬虫配置参数中设置的过滤器。主机缓存(HostCache):缓存HttpHost对象。处理器链(ProcessorChainList):默认构建了5条处理链,依次为预取链、提取链、提取链、写链、提交链,用于任务处理线程。使用说明 系统登录界面

  

  系统启动界面

  

  系统主界面

  (1)我的丑牛:系统信息、插件信息、内存监控、任务监控

  

  (2)采集配置:采集相关基础配置,包括远程数据库配置、FTP配置、自定义数据配置

  

  (3)Data采集:统一管理采集进程,包括采集公共参数设置、采集规则列表、采集历史列表,采集内容列表

  

  (4)任务监控:包括采集任务监控、仓储任务监控、图像处理任务监控、上传任务监控

  

  (5)定时任务:采集任务的定时执行

  

  (6)实用工具:包括图像处理

  

  项目信息

  路漫漫其修远兮,吾将上下而求索

码云:https://gitee.com/javacoo/CowSwing

QQ:164863067

作者/微信:javacoo

邮箱:xihuady@126.com

  源码下载地址

  安装包

  链接:

  提取码:l50r

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线