智能互联网信息采集系统由网页搜索器CGRobot、全文数据库CGRS
优采云 发布时间: 2021-06-22 19:35智能互联网信息采集系统由网页搜索器CGRobot、全文数据库CGRS
CGSEEK采用以用户为中心的设计理念,以网页搜索、内容过滤、全文搜索、智能内容挖掘和计算机自动分类技术为支撑,是一种全新的信息概念,以改善信息现状。互联网使用。服务产品。
智能互联网信息采集系统由网络搜索器CGRobot、网页自动加载器CGLoad、内容提取系统CGCPS、全文数据库系统CGRS、自动分类学习软件CGStudy组成。
一、系统处理流程
首先从网上采集信息中选择目标网站,设置网页搜索者CGCrobot的搜索策略,CGCrobot自动从符合搜索条件的网页中选择目标网站上采集 ,网页自动加载器CGLoad自动将网页加载到WEB页面数据库中。用户根据网页数据库中的网页信息,使用网站内容提取系统CG-CPS创建网页内容提取模板,提取用户需要的信息。 CGRobot根据搜索策略和提取模板,自动批量搜索目标网站的网页信息,转换成文本记录加载到文本内容数据库中。如果要对采集的网页内容进行分类,可以根据自动分类学习软件CGStudy生成的分类文件进行分类。
互联网上采集的信息,处理后加载到文本内容库中,可以使用CGRS系列软件进行信息发布、内容挖掘和信息重用。
二、系统函数
1、网络搜索者(CGROBOT)
网页搜索器是CGSeek5.1的前端程序,可以在本地自动采集网站上的全部或部分页面和资源。系统主要功能:
(1)用户设置页面搜索范围
● 设置 URL 起始条目
● 设置页面搜索范围和限制
● 使用资源文件的后缀来设置搜索页面上的资源文件。如设置图片、多媒体资源
(2)WEB服务连接方法
●设置WEB服务器的连接方式和数据后处理方式(是离线查看还是发送到搜索引擎库)
(3)每个站点的搜索深度可以根据需要设置
(4)URL 中的表达式分析功能可以指定收录的表达式和过滤表达式以满足搜索内容要求
(5)自动分类页面
(6)设置下载页面的最大文件大小和截断长度。
(7)自动搜索分析下载网页内容
(8)自动发送下载页面和图片文件
(9)Follow web search rules
2、网页自动加载器
网页自动加载器是一种将网页加载到网页数据库中的处理程序。启动后自动执行加载功能,无需人工干预。系统主要功能:
(1)网页和图片文件自动加载到WEB页面数据库中;
(2)自动更新网页;
(3)创建网页全文索引;
3、全文数据库系统CGRS5.0
全文数据库系统管理文档并提供强大的搜索功能。
4、网站内容提取系统CGCPS
从网页数据库中,根据个人需要设计内容提取模板和规则,从网页数据库中检索符合要求的页面,并自动从中提取相关文本信息。系统主要完成以下功能:
(1)从网页数据库中,通过强大的全文数据库搜索功能,过滤出需要处理的网页。
(2)选择符合制作模板条件的网页,添加索引制作成网页提取模板。
(3)template 自动提取结构化信息,转换和索引文本信息内容。
5、自动分类学习软件(CGStudy)
自动分类学习软件通过学习语料库中的语料生成分类规则文件,CRobot利用分类规则文件对网上下载的页面进行自动分类。同时,通过反复学习,不断完善分类规则文件,提高自动分类的准确率。
主要功能包括:语料文件准备、格式检查、分类学习和语料测试。
三、系统性能
1、支持建立多个引擎数据库,最多32767个。
2、下载速度;与网速有关。
3、 支持可续传。
4、页面自动分类准确率在80%左右。
5、单个引擎数据库最多可存储 42 亿页。
6、50亿汉字,平均查询时间小于3秒。