采集子系统使用说明书6/NUMPAGES8保密资料
优采云 发布时间: 2021-02-03 13:31
采集子系统使用说明书6/NUMPAGES8保密资料
采集子系统说明手册第6页/ NUMPAGES 8机密信息,请勿传播网络舆论监督系统采集子系统说明手册目录TOC \ o“ 2-3” \ h \ z \ u1.概述22.采集子系统的工作流程图23.采集子系统组件34.后台处理8概述舆论系统的主要任务是采集信息,网络舆论[子系统可以针对任何目标网站自动采集,并将采集的信息保存到数据库中进行分析,查看和处理;网络信息采集子系统支持任何主流的关系数据库,例如Oracle,IBM DB2,MS SQL Server,MySQL,Sybase和文件数据库访问。我们的舆论系统使用MySQL数据库。 采集子系统的工作流程图采集子系统的工作流程图采集子系统组件的网络信息采集该系统主要由Web资源管理器(分析网页),任务编辑器(配置任务)和任务组成执行它由数据库查询设备(用于执行任务),数据库查询设备(用于查看数据),数据变形脚本测试器(用于测试变形脚本)和组合*敏*感*词*组成。主界面如下图所示:网络信息采集系统主界面的任务调度代理负责调度每个网站的调度任务。 ([K26]安装在软件安装目录(C:\ Program Files \ WebDataMiner Operation \ ScheduleAgent.exe)中,桌面也会生成相应的快捷方式,启动后,其工作是安排负责网站的节点调度任务,如下图所示。安装任务调度代理后,目录任务调度代理接口(2)设置网站的调度信息:设置网站开始运行的时间,一台或多台机器,然后运行每天同时启动多少个进程,每天运行多少次,等等。
关于计划模式计划模式:设置工作频率,每天运行多少次,并以计划任务的名称表示其内部参数,一目了然。关于操作模式操作模式:设置正在运行的采集服务器和同时启动的进程,分为以下四种操作模式:单节点单进程:在采集服务器上运行,启动采集程序,适用于内容较少的网站单节点多进程:在一台采集服务器上运行并同时启动多个采集程序,以加快采集多节点单进程:需要选择采集服务器组(多个采集服务器),在一个服务器组中运行,该组中的每个服务器共享不同的采集任务以实现分布式采集,每个采集服务器启动一个采集程序以及更多节点多进程:必须选择采集服务器组(由多个采集服务器组成)并在一个服务器组中运行。组中的每个服务器共享不同的采集任务以实现分布式采集。 采集服务器可同时启动多个采集程序,这大大加快了速度。它适用于存在很多输入URL的情况,例如需要搜索很多关键词的搜索引擎。适用于搜索类型网站。设置浏览系统中各个网站的调度信息,如下图所示:每个网站调度任务列表的弹出对话框自动关闭。在网页采集期间,某些网站将弹出一个对话框,影响采集程序。要工作,请将弹出对话框的关键词设置为该程序,它将自动关闭弹出窗口。对话框,然后使采集程序继续运行。如下图所示:安装弹出对话框自动关闭器后,目录弹出对话框自动关闭器配置文件可以在同一局域网内共享,达到修改一个地方的目的并进行如下修改,如下图所示:弹出对话框自动关闭程序配置文件设置弹出对话框的内容:启动该程序后,单击“编辑”,填写弹出对话框的内容,在等号关键词的左侧(右上角)填充对话框的标题,并在内容的等号关键词的右侧填充对话框(通常在中间对话框)。
弹出对话框自动关闭器的主界面和编辑界面采集配置采集配置分为核心配置(Core_Tasks),系统配置(System_Tasks),WMT单独配置(WMT_Tasks)和用户配置(User_Tasks),已放置采集服务器的目录如下图所示:采集服务器目录结构核心配置(Core_Tasks):这是13种不同的配置模板,配置的特定参数存储在数据库,通常不需要在此处修改模板,如果网站的结构发生了更改,则只需要修改浏览系统中特定于网站的数据库中的特定配置参数,大多数支持网站 采集中的任何一个。该系统已经具有大多数主流网站配置。用户还可以添加系统中不存在的网站配置。系统配置(System_Tasks):为特殊任务放置一些WMT配置,例如:选定信息和采集文本的屏幕截图,采集新闻热搜索词,所有网站的屏幕截图,等等。WMT单独的配置(WMT_Tasks) :放置一些复杂的网站配置,这些配置很难用核心配置来处理,例如facebook配置。用户配置(User_Tasks):放置用户添加的WMT配置。数据库连接:Configs文件夹存储数据库连接信息(DB.udl,用于所有配置)。 采集批处理文件:Run_Batchs文件夹存储网站启动采集程序的所有批处理文件,启动此处的批处理文件将启动相应的采集服务。
([7)仓库规则说明:共有四个仓库规则,每个网站都可以在浏览系统中设置其相应的仓库规则:a。无文本,所有仓库b。否主要文字,标题或摘要是仅在收录核心词的情况下才收录在数据库中:适用于搜索引擎和具有全文搜索的网站(搜索结果具有抽象信息)c。采集主要文本,并且将主要词收录在数据库中(不判断标题摘要):适用于列表类型的网站,例如网站主页,新闻列表d。采用主文本,但不选择所有存储的主文本:表示主文本信息的(内容)不是采集 文章,并且很快采集了正文:采集 文章信息的正文(内容),速度较慢(8)核心词过滤搜索类型的规则:为了防止搜索后无关内容进入数据库,搜索类型X的操作应与e核心词并非与该搜索词相同主题的所有核心词,而是所有核心词。后台处理进程选择的信息处理程序的选定信息的屏幕截图和采集文本,在采集服务器上运行,如果有多个采集服务器,请选择其中一个启动:打开目录D:\ KWM \ Extraction_Server \ System_Tasks \ Selected_Articles_Process,双击run.bat,它将每分钟检查是否有任何选定信息,如果有,将对其进行处理。但是,在打开该程序后不要关闭它。重新启动采集服务器后,重新启动该程序。您也可以将其设置为Windows启动程序。