网页采集器的自动识别算法(产品描述维思比智能网络信息采集系统的*敏*感*词*与通用搜索引擎的区别)
优采云 发布时间: 2022-02-24 03:00网页采集器的自动识别算法(产品描述维思比智能网络信息采集系统的*敏*感*词*与通用搜索引擎的区别)
维斯比智能网络资讯采集系统技术白皮书一、产品描述
维斯比智能网络信息采集系统(VSP Spider)的主要功能:实时监控和采集有针对性网站在特定主题或领域内的相关网页,分析采集网页源文件内容并准确获取与主题相关的文本和元数据信息,对获取的信息进行过滤、信息提取、情感分析、去重和自动分类等数据处理,并存储产生指定的数据库系统或 XML。格式文件中提供了自动获取信息的数据通道。
威斯比智能网络信息采集系统的目标:综合获取一个主题或领域内所有与主题相关的网页,准确分析并获取描述该主题所需的所有元数据信息,从而获得多层次、多层次的主题或字段中的级别信息。角度,更准确,更规范,更完整的优质数据。
VSP Spider和一般搜索引擎的区别
z Universal search是面向大众的横向搜索系统,VSP Spider是更适合工业应用的纵向搜索系统。
z 通用搜索涵盖了非常广泛的网站。例如,谷歌有超过100亿的网页,而VSP Spider只针对网站或与某些领域相关的列,网页数量一般在1000万以下。
z VSP Spider更注重采集网页的质量,需要避免采集任何无用的垃圾网页。
z 通用搜索只需要分析网页中的文本内容,而VSP Spider需要准确提取应用系统关心的网页中指定的元数据信息。
z 对VSP Spider和采集网页的分类、提取、索引等数据处理要求更加专业和精准。z 万能搜索提供基于关键词的全文搜索,只提供少数TOP结果,而VSP Spider需要提供元数据、全文、智能扩展等综合搜索功能,要求全部返回查询结果。
二、系统*敏*感*词*
三、模块列表
功能模块功能说明
基本的
新闻采集实时监控采集target网站的新闻,可以准确提取文字,
元数据如作者、标题、出处、时间等。采集结果可以存储在每个
在主流数据库系统或 XML 格式文件中。可以是 采集 的网络
站的数量不受限制。
用户评论 采集 实时监控和 采集 论坛或用户评论自动分解每个反馈
内容复杂,支持主流列表和树形结构评论,精准抽取
每个回复的元数据,例如正文、作者、标题、时间等。
可选的
Metadata采集可以自动识别网页结构信息,自动提取网页元数据
信息化,抗干扰能力强,支持网页库级别的采集要求,适用于
网站部分无法自动识别,支持可视化模板配置手册
段,操作简单,使用方便。
网页自动分类和去重,提供基于文本内容的自动分类,在互联网上相互转载
文章,提供基于内容的网页自动重复数据删除。
新闻热点发现 自动发现近期关注度高的热点新闻,支持多条
每个频道或类别的热门新闻发现。
用户评论分析对于论坛或新闻评论中的用户交互内容,
用于识别实体目标及其属性的用户情绪分析。
二次开发环境提供VSP脚本语言开发环境,内嵌VSP源码编写,
用于调试和运行的 IDE 平台。
(注:威斯比智能网讯采集系统默认绑定基本功能模块,用户可根据需要选择其他功能模块。)
四、主要特点
面向主题的搜索
z 针对特定主题或领域的专业搜索引擎。
z 描述特定主题特征的规则库和资源库的构建。
z 描述主题或领域特征的元数据结构规范。
z topic网站 和相关频道资源的自动发现工具。
z 发现主题资源的准确率和召回率评估。
z 基于主题的网页重要性(权威)评估。
采集控制策略
z 单机可支持5000万以上网页采集。
z 多线程并发采集,支持多主机分布式采集。
z 一种基于网页链接重要性评估的网页优先级调度策略。
z采集 扩展策略仅限于目标 网站 或通道范围。
z采集 基于网页链接特征和相互关系的过滤策略。
z 优雅的采集 策略,以避免网站 过度强调单一目标。
实时网络监控
z 网页更新检查的周期性预测算法,可以及时检测出最近变化的网页。
z 各种更新的运行时计划,按特定周期或指定时间段执行。z 可以为不同的采集 源或采集 通道设置不同的运行时间计划。
z 默认使用压缩快速下载方式,使用高效的网页更新判断算法。
z采集网页的速度可以根据当前网络的性能自动调整。
z 预设监控目标网站的各种阈值,并提供异常情况的报警机制。
用户登录验证
z支持采集方式通过代理服务器访问网络。
z 支持Web服务器提供的弹出对话框的认证方式。
z 支持Web应用层认证,需要提交用户、密码等参数。
z 支持交互提交图片数字验证码的验证方式。
z支持更复杂的网络认证方法的cookie管理。
z 可以采集加密的Web 内容。
准确的数据采集
z DOM树结构分析,功能齐全、高性能、易扩展、容错性强。
z基于分区网页结构分析的思想,辅助完成更精准的数据定位。
z 可视化选区配置,无需了解源网页的内部结构。
z 概览页面的选定区域收录链接规则识别、地址过滤和翻译。
z 详细信息页面选定区域中收录的数据的精确识别、格式转换和内容转义。z 支持将一个网页分解为多个文档(如论坛的每个回复)。
z 支持一个完整的文档可以拆分成几个连续的网页(比如多页报表)。z 支持在多个相关网页或附件的链接之间建立关联。
智能信息抽取
z 基于视觉的网页自动分区技术 (VIPS)。
z 网页分区后自动标注区域类型和特征。
z网站自动识别内容组织结构(网站maps)。
z 通道范围内主题网页的分区特征的自动学习。
z 自动识别和智能提取网页正文内容区域。
z 网页链接区域自动识别和智能链接过滤。
z 主题网页中收录的元数据的自动模式信息提取。
z 自动识别和提取网页中的图片、关联文本和表格信息。
自然语言处理
z 命名实体识别、人名、地名和机构名称、时间和货币等。
z 基于统计的自动分类和基于规则的分类,支持多级和细分。
z 网页收录关键词的自动提取和网页摘要的自动生成。
z 自动识别网页信息指纹,实现基于内容的网页去重。
z 基于相似度的网页自动聚类,实现相似网页的计算。
z 基于权威的知识库系统,辅助元数据信息的纠错和补全。
z 热点事件自动发现、跟踪报告和落地统计。
z 互动社区或BBS论坛用户情绪的倾向性判断。
全面多样的数据
z 可以采集中文、日文、韩文、俄文、英文、*敏*感*词*文、阿拉伯文等多种语言的网页数据。
z支持繁体中文(BIG5)到简体(GB2312/GBK)自动转换。
z 可以采集PDF、DOC等文档,并自动提取文档的文本内容。
z可以采集各种格式的图片,也可以采集用户指定类型的附件。
z 嵌入式JavaScript引擎支持,可以采集AJAX交互应用数据返回。
z 可以在Web应用系统中自动采集后台数据库自动发布数据。
z 可以采集Web 纸库、BBS 论坛、博客、RSS 等应用程序生成的数据。
z 单独的采集 工具用于桌面搜索、FTP 搜索和邮件搜索。
应用系统集成
z 监控采集 系统配置、测试、运行控制和源和组织通道树的日志管理。z采集源码配置、可视化、操作简单、宏功能和脚本语言的集成开发环境。z 提供标准的网页属性数据,如 URL、标题、大小、时间和内容。
z 支持对主题区域进行精确的、用户定义的元数据结构描述。
zData 可以存储到 Oracle、DB2、SQL Server、Sybase 和 MySQL。
z 数据还可以存储在 Visby 全文数据库、Access 和 XML 文件中。
z多语言数据默认使用UTF-8字符集,字符集也可由用户指定。
zInformation采集器国际化应用工具,通过皮肤切换支持多语言环境。