岩石信息采集系统——平台架构特色功能操作简单可视化操作
优采云 发布时间: 2021-07-06 06:24岩石信息采集系统——平台架构特色功能操作简单可视化操作
产品介绍
Rock Information采集系统采用网络爬虫技术对定制化的目标数据源进行实时信息采集提取、挖掘、处理,为各类信息服务提供数据输入的*敏*感*词*系统。系统采用分布式框架,提供网页信息采集和全文搜索功能。
简单易用,自动抓取
简单易用,通过模拟用户浏览网页的方式自动抓取互联网信息,通过集群采集完成互联网信息采集和存储、url去重、元数据处理、网页分析和存储。
海量大数据采集
海量数据处理能力,轻松应对采集大数据需求;多线程采集,采集结果可以直接保存到本地;支持断点恢复,断网后重连自动恢复采用; 采集速度快,摒弃落后低效的正则匹配技术,使用自己开发的分析引擎。
全文搜索,覆盖全网
采集对象化方法,正文和回复内容可以同时实现采集;借助全文搜索引擎,轻松实现对全文舆情信息的监控;很容易从网上批量获取所需信息。
平台架构
特点
操作简单
可视化操作,无需编程基础,熟悉的电脑操作即可轻松掌握,任何人都可以使用,只需点击几下,即可快速完成采集。
所见即所得
所见即所得浏览器能看到的内容是采集。 采集的对象包括文字内容、图片、flash*敏*感*词*视频等网络内容。 采集 同时支持混合图形和文本对象。
面向对象采集
面向对象的采集 方法。正文和回复内容可以同时采集,页面内容可以轻松合并,采集的内容可以分散在多个页面中。结果可能是复杂的父子表结构。
智能分析
利用搜索引擎的智能分析核心,实现网页内容类似浏览器的分析、分解、内容提取、近似页面对比等。
分布式集群采集
多机集群采集支持负载均衡和分布式数据存储,提高性能和可靠性。
删除重复网页并自动解决
解析网页内容指纹计算,重复识别更智能,支持网页内容细粒度分析,支持正则表达式解析规则,可在线调试。
调度监控
支持周期性调度,支持手动启动、暂停、停止;可以在网页抓取过程中监控后台日志。
视觉模拟
采集软件会模拟人类视觉对网页进行分析,并在此基础上使用参考(模板)页面实现采集匹配工作。
智能辅助技术
利用智能搜索引擎的解析内核,可以帮助用户自动查找分页链接、分离页框内容等,努力减少用户的操作过程。
舆论监测
借助全中文搜索引擎,轻松实现全网舆情信息监控,信息覆盖最广。
大数据采集
多个爬虫节点分布式部署,协同实时抓取海量大数据,海量数据处理能力应对采集大数据需求。
数据采集
轻松从网上批量获取所需信息,利用云端采集功能轻松绕过采集网站反采集机制。如58、赶集网、百行网、阿里巴巴、慧聪网等。