智能互联网信息采集系统CGSEEK
优采云 发布时间: 2020-08-25 16:08智能互联网信息采集系统CGSEEK
智能互联网信息采集系统CGSEEK浙江天宇信息技术*敏*感*词*信息采集系统结构采集系统*敏*感*词*SQL Server等关系型数据库内容搜取目标网站信息处理互联网内联网天宇网页下载器CGRobot网页批量下载手动分类放置本地机指定文件夹CGRS全文数据库资料借助第三方系统进行采编、发布与检索天宇其他系统进行采编、审核、发布与检索系统主要功能支持各类标准格式信息资源的采集,如HTML页面、文本信息、表格、图片、声音、视频等;实现对网页与内联图片的统一采集;支持简体页面(BIG5码)的采集,并手动转换为标准的繁体码(GB码),支持Unicode码集;支持由程序手动生成的页面内容的采集,如由JavaScript生成的页面;能便捷将抓取网站上后台数据库的内容(JSP,ASP,CGI),和抓取须要通过用户身分校准的网站内容;支持单篇网页及网站历史数据的批量下载。系统能手动跟踪目标站点,采集最新的页面,信息手动去重;主题词过滤网页:在采集过程中,可以定义一个或多个主题词,对网页内容进行过滤,精确地获取与采集主题相关的网页内容;对于下载的网页,系统手动进行信息过滤,剔除广告及其他无用的信息,智能提取有价值的信息内容。
系统提供数组预定义相结合的处理方法:对于通常网页,可以默认由系统手动提取处理方法;对于中级应用与特殊的站点,系统提供数组预定义方法,保证网页内容提取的效率与质量;内容手动分类:通过计算机学习的手动分类规则,对采集的内容进行计算机手动分类;也可以对下载的内容根据主题词分类方式,计算机辅助人工进行批量分类。用户可自定义分类规则,系统支持正则表达式匹配定义。新闻媒体、政府部门、大型企事业单位纷纷通过互联网技术搭建网路信息搜集平台:新闻媒体须要获取大量的互联网上新闻资料,充实新闻资料库;政府机关须要搜集与自身业务相关的文献资料,提升办公与决策效率;大型企事业单位须要快速获取行业宏观环境、政策动态与竞争对手信息……天宇智能互联网信息采集系统(CGSEEK)集成了网页搜索、内容智能提取与过滤、自动分类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量上载的自动化与一体化。浙江天宇信息技术*敏*感*词*运行环境系统性能系统特性行业应用信息借助网页采集内容全面适应网站内容格式的多变性,能完整地获取须要采集的页面,遗漏少,网页采集内容的完整性在99%以上。内容准确度高能便捷地将网页中的信息提取下来,如日期,标题,作者,栏目等内容;过滤网页中的无用信息。
精确定义采集范围精确描述须要采集的网站范围,可以精确到整个网站、特定栏目、特定页面。使用便捷,自动化程度高系统参数设置简单,一次设置多次使用,修改便捷、直观、快捷。信息采集快系统通过多线程处理技术,可以同时启动多个搜索器,快速高效地对目标站点或栏目进行信息采集。可以将采集下来的网页信息放置到本地机器指定的某个文件夹下,进行借助。系统支持采集的文本内容批量上载到天宇CGRS全文数据库中,可以借助天宇采盘发系统及全文检索系统进行信息采编、审核、发布与全文检索等借助。经过智能提取的文本内容,可以上载到SQL Server等主流的关系型数据库中,充实资料库,也可以借助第三方应 用系统对信息进行采编、发布与检索等应用;支持RSS下载;网页镜像库支持数组内容提取。普通PC机,512M以上显存;操作系统:Windows 2000/2003/XP。网络传媒:自动跟踪与采集*敏*感*词*网路媒体信息,可以使用关键词过滤搜索或批量采集的形式,实现各种新闻的有效采集、分类、编辑、管理、发布与检索一体化;系统支持第三方应用系统,如采编系统、发布系统、检索系统。党政机关:实时搜集与业务工作相关的信息资源或新闻,在外网或内网上实时动态地发布下来,满足办公人员对互联网信息的须要,提高办公与办事效率。
大型企事业单位:通过系统实时追踪与搜集行业新政、宏观环境、竞争对手等相关情报资料,有利于提高企业综合竞争力。采集速度:每分钟采集数百个最新目标页面(与机器性能及网路带宽有关);处理速率:每分钟提取、过滤与上载数百个网页;自动分类:页面内容手动分类准确率90%以上;提取效率:页面内容(标题、日期、作者、正文等)准确提取率达99%以上。公司总部地址:浙江省杭州市环城西路新5号邮编:310006电话:0571-85117995 传真:0571-85118179网址:电邮:北京分公司地址:北京市海淀区魏公村街1号韦伯时代中心C座1803室邮编:100081电话:传真:E-mail: