大汉JGET信息采集系统
优采云 发布时间: 2020-08-27 12:44大汉JGET信息采集系统
系统概述
面对互联网海量的信息,政府机关、企事业单位和研究机构都急切希望获取与自身工作相关的有价值信息,如何便捷快捷地获取这种信息就显得至关重要了。如果采用原创的手工搜集方法,费时吃力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种才能提供高质量和高效运作的信息采集解决方案。
大汉JGET信息采集系统针对不同行业用户的应用需求,以检测抓取Internet信息为目的,实现在用户自定义规则下,自动从互联网中抓取指定信息。抓取的信息可存入独立数据库或通过插口发送至其他系统,用于内部使用或内网发布,实现信息及时全面地共享。
系统构架
系统特征
精确度高
用户可以根据自身须要自行选择、设定检测的目标网站和特定信息源,实施24小时不间断检测和采集,信息动态一直处于把握之中。系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。
易用性好
系统参数设置简单,一次设置多次使用。采用精确抓取分针对不同用户应用要求,可设定“所见即所得”的拖放选定信息内容形式。设置过程直观、便捷。系统能将搜集的信息进行精确的手动分类与整理,按照用户要求进行快速推送。
灵活性强
系统具有太强的灵活性,可按需选择目标站点,并按照形势的变化,随时更换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅要求用户设定特定的抓取条件,用户须要的内容都会手动被抓取和保存出来,从而实现由用户上网找信息转变为信息手动流向用户的方法。
实施布署容易
系统用户界面友好,抓取服务器在Windows平台下运行,实施布署过程简单,即装即用。系统稳定性很高,可以在“7天×24小时”运行模式下长时间地运行。
采集内容全面
适应网站内容格式的多变性,能完整地获取须要采集的页面,遗漏少,网页采集内容的完整性在99%以上。
抓取速度快
系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对目标站点或栏目进行信息采集,大大推动了信息的抓取速率,保证在同等单位时间内信息的抓取量成倍数下降。
性能指标
每分钟可以抓取上百个最新网页,每小时可以同时监控5万个以上的网页(受网路带宽的限制),支持上千个网站的并发采集。与大汉内容管理系统无缝集成,同时提供标准的第三方应用系统插口,方便进行二次开发。
运行环境
操作系统
Windows
数据库
SQLServer