采集采集系统(一套面向互联网文本采集领域的灵活可配置动态采集系统)
优采云 发布时间: 2021-10-08 05:10采集采集系统(一套面向互联网文本采集领域的灵活可配置动态采集系统)
摘要:Ring BigResearch WebExtractor系统(Ring BigResearch WebExtractor)是一个灵活可配置的动态采集系统,适用于互联网文本采集领域。系统允许用户自定义需要监控的互联网数据源,可以采集新闻、门户、论坛、文档等各种互联网数据。支持关键词搜索条件,支持智能抓取网页中的文本内容和背景数据,支持提取标题、出版商、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,稳定可靠,高性能,高扩展性。
一、概述
Ring BigResearch WebExtractor 系统(Ring BigResearch WebExtractor)是一个灵活且可配置的动态采集系统,适用于互联网文本采集领域。系统允许用户自定义需要监控的互联网数据源,可以采集新闻、门户、论坛、文档等各种互联网数据。支持关键词搜索条件,支持智能抓取网页中的文本内容和背景数据,支持提取标题、出版商、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,稳定可靠,高性能,高扩展性。
二、产品特点
基于关键词实现有针对性的数据抓取;可以配置爬取线程数和爬取时间间隔;支持断点续传。(4)采集 可以实时监控和管理捕获监控数据的过程。
三、特点和优势
(1)分布式爬虫架构平台采用分布式爬虫架构,可以实现高效的多线程和可扩展的动态性采集;
(2)多数据源采集支持抓取主流门户、新闻、论坛、文档等数据源;
(3)面向主题的采集支持灵活配置各种搜索条件,实现面向主题的数据采集。