自动采集子系统(天宇政府门户网站群搜索引擎解决方案方案(零风险部署:天宇公司网站搜索引擎系统))
优采云 发布时间: 2022-03-15 02:16自动采集子系统(天宇政府门户网站群搜索引擎解决方案方案(零风险部署:天宇公司网站搜索引擎系统))
计划概述
政务门户网站是人们在生活和工作中获取权威信息的渠道,是各级政府发布政务信息的重要阵地。
随着政务网站内容的不断丰富,网页数量呈指数级增长。如何从海量信息中快速找到自己需要的信息,是政府门户网站或网站群的改进问题。迫切需要信息服务。同时,作为一级政府,还需要整合下属机构的网站信息,实现资源共享,为公众提供全面、完整、及时的“一站式检索”地方政府公共信息服务。
天宇政务门户网站群搜索引擎解决方案采用天宇自主知识产权的全文检索技术和智能互联网信息采集技术开发的网站搜索引擎系统产品,实现政府门户网站网站 @网站各栏目及下属机构网站的网站群检索服务,达到“一站式”检索政府所有公共政府信息的目的各级及其下属机构,大大提高了政务信息服务水平。
节目特色
网站群组搜索:对政府门户网站所有主栏目及下属机构子站点进行分类、分栏、高级搜索、全文搜索,实现快速准确查询已发布信息。
全网站搜索:支持检索网站所有信息内容,包括网页文件、图片、附件中的WORD文档、PDF文档、EXECL表格、PPT演示文档、音视频资料等格式文件检索。
一站式查询:整合采集政府下属机构门户网站的信息资源,为全政府公开政府信息提供“一站式”查询服务。可查询政府及其所属单位、部门公开发布的政务信息,提高政务信息查询和使用效率,提升政务门户网站的信息服务水平。
零风险部署:天宇的网站搜索引擎系统是一套先进成熟的独立产品。安装部署不需要改变用户原有的应用系统,只需将我司提供的链接脚本嵌入到原有的网站中即可实现搜索功能,可以保护用户原有的投资最大程度。
个性化设置:采集的图片文件存储在本地服务器的全文搜索数据库中,保证了用户数据的安全,可灵活自定义搜索的界面风格、分类、栏目,明显优于第三方搜索引擎。
节目内容
天域政务门户网站群搜索引擎解决方案分为系统部署和工程部署两部分。系统部署包括信息采集子系统、信息管理子系统、信息检索子系统的部署;工程部署包括内容,采集信息资源的项目设置。
1、系统部署
信息采集子系统
实现政府门户网站网站及下级网站下属单位部门WEB页面批量采集,支持各种网页格式信息采集和附件内容采集,并通过内容过滤、自动去重、自动分类,载入CGRS网络搜索数据库进行管理,提供网站全文搜索服务。主要包括以下几个部分:
(1),确定采集目标网站,建立采集项目配置;
(2),项目采集的搜索策略定义及过滤条件设置;
(3),根据URL特征完成搜索地址设置,对网站频道进行分类采集,过滤并自动去重内容;
(4),自动将采集的内容加载到CGRS网页搜索数据库中,交给CGRS全文数据库管理系统统一管理。
(5)、采集文件类型。系统支持页面内容(htm、html、xml、shtml、asp、php、jsp、notes等)、网页附件(doc、xls、ppt) , txt) , pdf 等), 图片 (jpg, gif, jpeg, bmp 等), 音频 (MP3 等), 视频 (AVI, RM, MPEG 等), JAVA (JavaScript 生成的页面程序)等 采集 。
信息管理子系统
通过WSE DBA,通过CGRS全文数据库统一管理从采集下载的各类WEB页面、附件等非结构化信息资源。同时实现了采集进程和用户权限的全局管理。
后台CGRS全文数据库是一个全文数据库平台,为WEB页面、文本、电子文档、图像、声音、图像等页面附件提供强大的数据库管理和检索功能。具有数据库管理和维护功能,如搜索引擎数据库的定义、建立、备份、恢复、逻辑删除、物理删除、重组、增量备份、记录重复检查等。
用户和审计管理。包括用户权限管理、用户操作审计、分析统计、日志分析统计等功能。
信息检索子系统
采用先进的基于字符的索引技术,无需安装分词词库,全面解决分词技术导致的漏搜、误搜、索引更新等现象。支持任意字符、单词、词组、句子和片段的全文检索,保证采集的海量WEB页面100%的查全率和高查准率。提供智能全文检索和多种复合检索方式。支持逻辑组合检索、多字段复合精确检索、历史检索、相关词扩展检索、分类导航检索、中英文(字符)混合检索、二次检索、网页附件检索等。搜索关键词@ > 在标题和摘要中突出显示,检索结果按标题、摘要、内容进行聚类,消除重复内容。搜索结果可以按相关性和时间排序。
2、项目部署
系统部署完成后,进入项目部署阶段,设置和调试政府门户网站和下属单位部门的子网站发布的内容,以及信息的信息资源采集。根据发帖规则,提供定时采集设置,达到无人值守自动采集的目的,提高系统的及时性和效率。同时,系统具有良好的稳定性和安全性,可实现7*24小时不间断工作。
成功案例
“中国杭州”政务门户网站搜索引擎项目是天域政务门户网站群搜索引擎的典型应用。本项目采用天宇公司网站搜索引擎系统产品,为杭州市政府门户网站网站打造“全网站”搜索引擎,整合采集旗下65个局委杭州,办公门户网站信息资源,实现全杭州市政务信息“网站群”查询,为党政机关提供政务公共信息“一站式”查询服务各级和公众。用户只需访问杭州市政府门户网站网站,并通过网站搜索功能,查询杭州市政府及其下属单位、部门门户网站网站上发布的政务信息。该项目有助于提高公众查询和使用政府信息的效率,真正体现政府部门贴近人民、惠及人民、便民的服务宗旨。
资料网址: