采集子系统使用说明书6/NUMPAGES8保密资料
优采云 发布时间: 2021-07-18 21:03采集子系统使用说明书6/NUMPAGES8保密资料
采集Subsystem 用户手册 PAGE 6/ NUMPAGES 8 机密信息,请勿传播网络舆情监测系统采集Subsystem 用户手册目录TOC \o "2-3" \h \z \u 1.概述2 2.采集子系统工作流程图2 3.采集子系统组件3 4.后台处理流程8 概述舆情系统的首要任务是采集信息,网络公情采集子系统可以自动采集任何目标网站并将采集的信息保存到数据库中进行分析、查看和处理;网络信息采集子系统支持任何主流的关系型数据库,如Oracle、IBM DB2、MS SQL Server、MySQL、Sybase和文件数据库Access。我们的舆论系统使用MySQL数据库。 采集子系统工作流程图采集子系统工作流程图采集子系统组件网络信息采集系统主要由网页浏览器(网页分析)、任务编辑器(配置任务)、任务组成执行 由数据库查询器(执行任务)、数据库查询器(查看数据)、数据变形脚本测试器(测试变形脚本)、组合*敏*感*词*组成。主界面如下图所示: Network Information采集System 主界面 Task Scheduling Agent 负责调度各种网站调度任务。 (1)安装在软件安装目录(C:\Program Files\WebDataMiner Operation\ScheduleAgent.exe),桌面也会生成相应的快捷方式,启动后,其作用是调度该节点的网站调度负责Tasks,如下图,任务调度代理安装后,目录任务调度代理界面(2)Set网站调度信息:设置网站什么时候开始运行,哪个机器或者机器上运行,运行多少进程同时启动,每天运行多少次,等等。
关于调度模式调度模式:设置运行频率,每天运行多少次,并以调度任务的名称表达其内部参数,一目了然。关于运行方式 运行方式:设置运行采集服务器,进程同时启动,分为以下四种运行方式: 单节点单进程:运行在一台采集服务器上,启动一个采集程序,适用网站single-node 多进程内容较少:在一台采集服务器上运行,同时启动多个采集程序加速采集多节点单进程:需要选择采集服务器组(多台采集服务器),运行在一个服务器组中,组内每台服务器共享不同的采集任务实现分布式采集,每台采集服务器启动一个采集程序和多个Node多进程:需要选择采集服务器组(由多个采集服务器组成)并在一个服务器组中运行。群内每台服务器共享不同的采集任务,实现分布式采集,每台采集服务器同时启动多个采集程序,大大加快了速度。适用于入口网址较多的情况,例如需要搜索大量关键词的搜索引擎。 网站 用于搜索类型。在浏览系统中设置每个网站的调度信息,如下图: 自动关闭每个网站调度任务列表的弹出对话框。在网页采集的过程中,有的网站会弹出一个对话框,影响采集程序的工作,把弹出对话框的关键词设置成这个程序,会自动关闭弹出-up 对话框并让采集 程序继续工作。如下图: 弹出对话框自动关闭器安装后,目录弹出对话框自动关闭器配置文件可以在同一个局域网内共享,达到修改一处的目的并进行如下修改,如下图所示: 弹出对话框 Autocloser配置文件设置弹出对话框内容:启动本程序后,点击编辑,填写弹出对话框的内容,等号关键词左侧填写对话框标题(右上角),内容等号关键词右侧填写对话框(一般居中)对话框)。
弹出对话框自动关闭采集configuration采集配置的主界面和编辑界面分为核心配置(Core_Tasks)、系统配置(System_Tasks)、WMT分离配置(WMT_Tasks)和用户配置(User_Tasks),放置采集服务器的目录如下图:采集服务器目录结构核心配置(Core_Tasks):这里有13个不同的配置模板,配置的具体参数存放在数据库,一般情况下这里不需要修改Template,如果网站的结构发生变化,只需要在浏览系统中修改具体网站对应数据库中的具体配置参数即可支持大部分网站采集。系统已经拥有最主流的网站配置。用户还可以添加系统中不存在的网站配置。系统配置(System_Tasks):放置一些处理特殊任务的WMT配置,如:选中信息截图和采集text、采集新闻热搜词、所有网站截图等WMT单独配置(WMT_Tasks ):放置一些核心配置难以处理的复杂网站配置,例如facebook配置。用户配置(User_Tasks):放置用户添加的WMT配置。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享一个); 采集批处理文件:Run_Batchs文件夹存放了所有网站start采集程序的批处理文件,start这里的批处理文件启动了对应的采集服务。
(7)入库规则说明:入库规则有四种,每个网站可以在浏览系统中设置其对应的入库规则:a.无文字,全部入库 b.无正文,标题或摘要收录数据库中的核心词:适用于搜索引擎和全文搜索网站(搜索结果有摘要信息) c. 采集正文,主词收录数据库中的核心词(标题摘要不判断):网站适用于列表类型,如网站homepage、新闻列表 d. 选择文本,但不选择所有存储的文本:不是采集文章文本(内容),并很快挑选文本:采集文章 消息的主体(内容),速度较慢(8)搜索类型的核心词过滤规则:为了防止不相关的内容从搜索后进入数据库,搜索类型X操作匹配核心词 不是所有的核心词,而是t的所有核心词与此搜索词的主题相同。后台处理进程选择的信息处理程序的选择信息截图和采集正文,在采集服务器上运行,如果采集服务器不止一个,选择其中一个启动:打开目录D:\KWM\Extraction_Server\System_Tasks\Selected_Articles_Process,双击run.bat,它会每分钟检查是否有选中的信息,如果有则进行处理,但是打开后不要关闭这个程序它。重启采集服务器后重启这个程序。您也可以将其设置为 Windows 启动程序。