内容 采集 软件(航天四创搜索服务系统(.1)系统功能频道管理)
优采云 发布时间: 2021-09-09 09:01内容 采集 软件(航天四创搜索服务系统(.1)系统功能频道管理)
1)系统要求
Content采集Search服务系统经过不断的实践和改进,已经成为功能更加先进、成熟的产品。为行业用户提供针对性强、针对性强的垂直搜索服务。它被政府、国有企业和公共机构使用。不错的选择。
CSSv5.1 的主要特点如下:
(1)定位独一无二:面向政府、企事业单位,以实用为主,易学易用。
(2)有一个明确的目标:为用户提供面向互联网的信息采集、自定义索引和站点搜索服务,并支持各种功能模块的集成应用。
(3)快速实施:专业实施人员一周内即可部署、安装、调试系统。
(4)运维简单:应用智能引导方式,提供基础配置逻辑,有效降低系统运维难度,改变非程序员操作难,让产品拥有“傻瓜式" 特征。
(5)免费升级:运维期间,公司免费将产品升级到最新发布的版本。
(6)性价比高:航天四创搜索服务系统与市场同类产品相比,以强大的功能和低廉的价格为核心竞争力。
2)系统框架
3)系统函数
渠道管理
通道管理是定义采集任务信息并提取信息的管理模块。不同的采集站点按渠道划分。通道可以收录一项或多项任务。用户可以根据分类需要或习惯,将一些相关的网站归为一个类别,定义为一个频道。
l 抓取配置:定义采集任务的优先级,分配采集器,设置更新周期等运行设置。
l 调度配置:设置抓取任务为自动抓取或定时抓取。
l 解析配置:设置抓取任务的页面解析规则和元数据提议规则。
采集器管理
添加采集器的ip和端口,为采集服务的检测提供基础配置管理。
任务导出
用户可以使用采集导出功能将采集任务下载的站点数据以XML文件的形式导出,并集成到其他业务系统中。 采集export 提供根据任务组合、页面发布时间、每页导出记录数、文件类型、是否收录图片导出数据的功能。
索引库管理
可以创建多个索引库,每个索引库可以添加多个索引条目。系统采用中文分词技术,可设置索引项的分词和模糊匹配。
同义词管理
用户可以通过词典管理功能为索引过程创建同义词词典。具体操作包括创建同义词、删除同义词、搜索同义词。
索引设置
索引库的基本配置,包括索引库路径、服务器地址等。提供系统的功能,定期自动处理索引库的操作。
分类树管理
用户可以在类目编号管理中定义父类或子类。在定义的分类树中,分类在分类树中的位置是可以移动的,但是分类只能在同一层级之间移动,不能越级移动。如果移动了父类,那么父类下的所有子类也将被移动。移动。
分类规则管理
分类规则管理中可以定义分类规则的各种属性,包括分类之间的关系、是否有效、关键词、来源、文件类型等。
分类信息发布管理
可以管理分类下的信息发布。
信息导出管理
用户可以将定义的类别下的信息导出并存储在自己的文件目录中。
4)系统功能
松耦合架构,支持各功能模块的扩展应用
由于数据采集和内容检索的广泛应用,系统设计采用松耦合架构,各功能模块相对独立,使得采集和索引不仅仅是搜索服务系统的核心业务,还有其他业务系统集成。
多机采集,分布式部署,适应*敏*感*词*采集任务
系统支持一台机器或多台机器上的采集任务。用户可以通过注册来声明一个新的采集器。当采集任务过大时,采集器和数据库的分布式部署可以处理海量数据。
基于超链接分析等技术,实现对各种数据的有效处理
能够采集多种网页类型,包括:静态网页,如html、xml、shtml等; JavaScript 生成的动态网页和动态超链接信息。
提供不同信息类型的分析
包括动态网页信息和静态网页信息的分析附件,链接采集支持自定义爬取规则。根据目前的经验,正则表达式和通配符是一种比较简单的覆盖链接范围的方式 除了表达方式之外,考虑到逻辑判断的需要,即一个正则表达式不能完全表达,逻辑可以完成通过动态脚本。
多页面解析方式,系统维护简单好用
利用XPATH逆向生成工具和在线验证方式,实现所见即所得的元数据提取规则设置,改善只有技术人员才能维护的维护条件,提高系统维护的便捷性。
多种信息导出方式,支持信息复用
选择采集task和cms列的对应关系,授权验证后以cms提供的web服务接口的形式导出信息。
对于外部系统请求数据的过程,获取信息有两种方式,一种是XML导出,另一种是Web服务接口。