网站内容采集系统(网络蜘蛛从用户设定的网站抓取数据,形成数据包-Spider)
优采云 发布时间: 2021-10-02 20:25网站内容采集系统(网络蜘蛛从用户设定的网站抓取数据,形成数据包-Spider)
产品介绍
KLAND-Spider网络信息资源采集系统是一套网络信息资源开发、利用和整合系统,可用于定制跟踪和采集互联网实时信息,建立可复用的信息服务体系。KLAND-Spider可以自动对来自各种网络信息源,包括网页、BLOG、论坛等用户感兴趣的特定信息进行分类处理,并以多种形式提供给终端用户。
KLAND-Spider可以快速及时的捕捉到用户需要的市场情报、政策法规、行业资讯、热点新闻等网络信息内容。可广泛应用于企业门户建设、情报搜集、舆情分析、网络敏感信息等。监控等方面。
产品特点
KLAND-Spider网络信息资源采集系统由四个子系统组成:采集导航器、网络蜘蛛、数据处理器和发布系统。
采集Navigator 用于自定义采集的目标。网络蜘蛛从用户设置的网站中抓取数据,形成数据包(数据表)发送给数据处理器,数据处理器对捕获的数据进行分析过滤,根据站点、渠道、和关键词等分类模型自动对数据进行分类,保存在本地数据库中,通过发布系统以选定的格式或样式发布,方便用户使用。
产品特点
采集 方法的灵活性,采集来源的多样性,数据的准确性采集以及增量采集的自动性。
*支持多种形式的网页:静态网页、动态网页、文档网页(Word、EXCEL、PDF等);
*支持导航页和内容翻页;
*支持采集嵌入表单;
*支持文章附件采集和分析(Word、EXCEL、PDF等);
*采集分析结果元数据自动测试;
*采集 结果去重;
*自动采集新的目标信息网站(时间间隔可设置)。