自动采集子系统(采集子系统的工作流程图采集使用说明书目录(一))

优采云 发布时间: 2022-04-19 17:26

  自动采集子系统(采集子系统的工作流程图采集使用说明书目录(一))

  采集子系统使用说明书第6页/第8页保密信息,请勿散布网络舆情监测系统采集子系统使用说明书TOC \o "2-3" \h \z \u 1.概览2 2.采集子系统工作流程图2 3.采集子系统组件3 4.后台处理8 舆情系统概览 初级任务是采集信息,网络舆情采集子系统可以自动采集任意目标网站,并将采集的信息保存到数据库,所以它执行分析、查看和处理;网络信息采集子系统支持任何主流关系型数据库,如Oracle、IBM DB2、MS SQL Server、MySQL、Sybase、和文件数据库访问等。我们的舆情系统使用MySQL数据库。采集子系统工作流程图采集子系统工作流程图采集子系统组件网络信息采集系统主要由网页浏览器(分析网页)、任务编辑器组成它由执行器(配置任务)、任务执行器(执行任务)、数据库查询器(查看数据)、数据转换脚本测试器(测试转换脚本)、组合*敏*感*词*等组成。主界面如图所示下图:网络信息采集系统主界面任务调度代理负责调度每个网站的调度任务。(1)安装在软件安装目录(C:\Program Files\WebDataMiner Operation\ScheduleAgent.exe),

  关于调度模式调度模式:设置运行频率,每天运行多少次,并以调度任务的名称表达其内部参数,一目了然。关于运行模式 运行模式:设置正在运行的采集服务器和进程同时启动,分为以下四种运行模式: 单节点单进程:运行在一个采集服务器上,启动一个采集程序,适合网站单节点多进程,内容少:运行在一台采集服务器上,同时启动多个采集程序,加速采集 极速多节点单进程:需要选择一个采集服务器组(由多个采集服务器组成),运行在一个服务器组中,组内每个服务器共享不同的 采集 任务,实现分布式采集,每个采集服务器启动一个多节点多进程的采集程序:需要选择一个采集服务器组(由多个采集@组成> servers) ,运行在一个服务器组中,组内每个服务器共享不同的采集任务,实现分布式采集,每个采集服务器同时启动多个采集该程序大大加快了速度,适用于入口网址较多的情况,如搜索引擎需要搜索大量关键词。网站 用于搜索类型。浏览系统时,设置每个网站的调度信息,如下图: 每个网站调度任务列表弹出一个对话框并自动关闭对话框。在网页采集的过程中,会弹出一些网站。该对话框将影响 采集 程序的工作。如果将弹出对话框的关键词设置到本程序中,弹出对话框会自动关闭,让采集程序继续工作。如下图: 弹出对话框 自动关闭器 安装后弹出目录对话框 自动关闭器的配置文件可以在同一个局域网内共享,达到修改一处的目的也可以修改一下,如下图:等号左侧的对话框标题 <

  弹出对话框的主界面和编辑界面自动关闭。采集服务器中放置的目录如下图所示: 采集服务器目录结构核心配置(Core_Tasks):这里有13个不同的配置模板,配置的具体参数存储在数据库中,一般情况下这里不需要修改模板。如果网站的结构发生变化,只需要修改浏览系统中具体网站对应的数据库中的具体配置参数即可,支持大部分网站采集 @>。系统已经拥有大部分主流的网站配置。用户还可以添加系统中不存在的网站 配置。System_Tasks:放置一些处理特殊任务的WMT配置,比如:截取选中的信息和采集文字、采集新闻搜索词、截取所有网站等WMT单独配置( WMT_Tasks):放置一些核心配置难以处理的复杂网站配置,如facebook配置。用户配置(User_Tasks):放置用户添加的WMT配置。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享);采集批处理文件:Run_Batchs文件夹存放了网站的所有启动采集程序的批处理文件,这里启动批处理文件会启动对应的采集服务。截取所选信息和采集文本、采集新闻搜索词、截取所有网站等WMT单独配置(WMT_Tasks):放置一些复杂的网站配置核心配置难以处理的问题,例如 facebook 配置。用户配置(User_Tasks):放置用户添加的WMT配置。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享);采集批处理文件:Run_Batchs文件夹存放了网站的所有启动采集程序的批处理文件,这里启动批处理文件会启动对应的采集服务。截取所选信息和采集文本、采集新闻搜索词、截取所有网站等WMT单独配置(WMT_Tasks):放置一些复杂的网站配置核心配置难以处理的问题,例如 facebook 配置。用户配置(User_Tasks):放置用户添加的WMT配置。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享);采集批处理文件:Run_Batchs文件夹存放了网站的所有启动采集程序的批处理文件,这里启动批处理文件会启动对应的采集服务。等 WMT分离配置(WMT_Tasks):放置一些复杂的网站配置,核心配置难以处理,如facebook配置。用户配置(User_Tasks):放置用户添加的WMT配置。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享);采集批处理文件:Run_Batchs文件夹存放了网站的所有启动采集程序的批处理文件,这里启动批处理文件会启动对应的采集服务。等 WMT分离配置(WMT_Tasks):放置一些复杂的网站配置,核心配置难以处理,如facebook配置。用户配置(User_Tasks):放置用户添加的WMT配置。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享);采集批处理文件:Run_Batchs文件夹存放了网站的所有启动采集程序的批处理文件,这里启动批处理文件会启动对应的采集服务。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享);采集批处理文件:Run_Batchs文件夹存放了网站的所有启动采集程序的批处理文件,这里启动批处理文件会启动对应的采集服务。数据库连接:Configs文件夹存放数据库连接信息(DB.udl,所有配置共享);采集批处理文件:Run_Batchs文件夹存放了网站的所有启动采集程序的批处理文件,这里启动批处理文件会启动对应的采集服务。

  (7)入仓规则说明:入仓规则有四种,每一个网站都可以在浏览系统中设置其对应的入仓规则:a.无文字,满仓b.无,只有文字被选中,并且标题或摘要收录核心词:适用于搜索引擎和全文搜索的网站(搜索结果有摘要信息) c.摘要):适用于列表类型网站 ,如网站首页、新闻列表 d. 文本被选中,所有存储都没有选中文本:表示没有采集文章信息文本(内容)速度极快。文字采集:采集文章信息的文字(内容)较慢(8)搜索类型的核心词过滤规则:为了防止搜索后不相关的内容也进入数据库。搜索类型的X操作匹配到的核心词并不是所有的核心词,而是与这个搜索词同主题的所有核心词。后台处理过程中选中信息和信息处理程序中选中信息的截图和采集文本运行在采集服务器上。如果有多个采集服务器,选择其中一个打开:打开目录D:\KWM\Extraction_Server\System_Tasks\Selected_Articles_Process,双击运行.bat,每隔一分钟检查一下是否有是任何选定的信息,并处理它。打开后不要关闭此程序。重启 采集 服务器后重启这个程序。将其设置为 Windows 启动程序。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线