java从网页抓取数据(网页信息提取文献总结-差异和对比零、基础知识结构化数据)
优采云 发布时间: 2022-01-29 10:13java从网页抓取数据(网页信息提取文献总结-差异和对比零、基础知识结构化数据)
【算法研究】Web信息抽取文献综述——差异与比较零,基础知识结构化数据2015_《数据库系统基础(第5版)》
存储在数据库中的信息称为结构化数据;XML 文档是模式信息与数据值混合的半结构化数据,而 HTML 中的网页是非结构化文档规范化
将格式错误的文档转换为格式良好的 HTML 文档。
一、审阅类型文章2002_《Web数据抽取工具简述》
伦达尔等人。建议通过区分用于为每种方法生成包装器的主要技术来区分结构化数据提取方法,例如基于 NLP 的方法、基于模型构建的方法等。
2006_《Web信息抽取系统综述》
C. Chang 等人。从提取任务的难易程度、使用的方法、自动化程度等方面对网页提取进行分类。
使用的技术(标记/编码方法、提取规则的类型、特征提取/机器学习)、自动化程度(有用户参与、无用户参与)(手动构建、监督、半监督、无监督)2012_“Web 数据挖掘”
兵等人。根据自动化程度对数据提取方法进行分类,将结构化数据提取方法分为手动、*敏*感*词*和全自动方法。2013IEEE“从Web文档中提取区域的调查”
Sleiman 等人专注于区域提取器。描述区域提取器的发展并比较不同的区域提取器。2019_《基于层次分析法的Web数据提取方法比较研究》
描述从网页中提取数据的方法,详细描述每种方法,最后根据定义明确的精确标准比较所有方法。二、基于HTML页面代码的方法手动方法1997_《半结构化数据:TSIMMIS经验》
TSIMMIS 是最早提供手动构建 Web 包装器的框架之一,允许程序员输入一系列指令来确定应如何提取数据。
1998_ “WebOQL:重构文档、数据库和 Web”
*敏*感*词*方法 2000_Snowball:从大型纯文本集合中提取关系
微软提出的一种从文本文档中提取有价值的结构化数据的方法,首先从用户那里获取少量训练样例作为*敏*感*词*元组生成提取模式,然后从文档集合中提取新的元组对,经过多次获取最终数据迭代。2007_《开放网络信息提取》
抽取范式是从语料库中构建的,不需要人工输入,自动发现可能的兴趣关系,实现了从Web中*敏*感*词*数据抽取的无监督过程。2007_“深度网络的结构化数据注释”
解决如何为从 Web 数据库返回的 SRR 数据记录自动分配有意义的标签。
陆晔等。将数据单元对齐到不同的组中,使同一组中的数据具有相同的语义,然后为每个组从不同方面对它们进行注释,并聚合不同的注释以预测最终的注释标签。2013_《一种从深网精确提取实体数据的新方法》
根据 DeepWeb 的动态特性,Yu HT et al. 对网页资源进行预处理和规范化,结合XPath和Regexp,准确定位实体数据。缺点是不能泛化,需要在提取目标页面前定义正则表达式。2018_用户友好和可扩展的Web数据提取
Serrano T. Novella I. Holubová 等人提出了一种具有三个目标的新包装语言:(1)在受限环境中运行的能力,例如浏览器扩展,(2)可扩展性能以平衡交易-在命令集表达性和安全性之间关闭,以及(3) 处理能力,无需额外的程序来清理提取的数据。全自动方法 2001_“RoadRunner:从大型网站自动提取数据”》
RoadRunner 是一个完全自动化的包装器,它不依赖于任何用户交互,但需要一次处理至少两个或多个页面,因为算法的核心是基于一组给定的属于同一类的 HTML 示例页面并从提取数据。RoadRunner 使用一种称为 ACME 的匹配技术来查找两个页面中的共同结构(对齐相似的标签和折叠不同的标签)以从标签生成包装器。由于算法的比较机制,RoadRunner 还会收录一些噪声块。
三、基于DOM树的*敏*感*词*文本识别方法2001_《Building Intelligent Web Applications Using Lightweight Wrappers》
W4F(万维网包装器工厂)是一个用于生成 Web 包装器的 Java 工具包。它提供了一种表达式语言,用于从 HTML 页面中提取 DOM 树结构,将提取的数据映射到 XML 或 Java 对象,并提供一些可视化工具,使打包过程更快、更容易。
2002_ “XWRAP:一个支持 XML 的 Web 信息源包装器构建系统”
XWRAP 是一种*敏*感*词*的方法,它分析页面的 DOM 结构,使用组件库为 wrapper 程序提供基本的构建块,引导用户通过点击所需的组件来生成 wrapper 代码,XWRAP 还可以输出信息抽取规则。
叶节点融合相关算法
《基于DOM树和统计信息的Web内容信息提取》
全自动方法2001_《万维网全自动对象提取系统》
Omini 将网页解析成 DOM 树,然后使用子树提取算法定位收录感兴趣对象的最小子树,并使用对象提取算法定位正确的对象分隔符标签,从而有效分离对象。缺点是子树提取算法和对象分隔符提取算法都依赖于标签计数,数据库仅限于普通论文文章和书籍数据库网站,结构比较简单。
2003_《通过模式发现从半结构化网页中自动提取信息》
IEPAD(Automatic information extract from semi-structured Web pages by pattern discovery)是一种基于模式发现的方法。
2003_《挖掘网页中的数据记录》
MDR 方法基于两个观察和三个步骤:
两个观察
两个假设
该方法主要分为三个步骤
2005_《基于部分树对齐的Web数据提取》
DEPTA(即 MDR2)
主要流程
MDR2 挖掘数据区域(基于部分树对齐)
2017_《基于Web结构聚类的Web内容提取》
CECWS首先从同一个网站中提取了一组相似的页面,删除了内容相同的部分(噪声数据),然后提取了数据。
2018_《一种从单项页面中有效提取网络数据的新型对齐算法》
DCA 分治法专注于提取单项页面中的顺序对数。
本文的主要贡献是
四、基于视觉信息的数据提取2003-Vips:一种基于视觉的页面分割算法
蔡 D 等人。首先从DOM树中提取出所有合适的页面块,然后根据这些页面和段重构网页的语义结构。
2005-搜索引擎的全自动包装器生成
作者主要提出了ViNT的一种方法
对于搜索引擎的界面(如百度页面和谷歌界面),需要同一个搜索引擎下的多个页面。
2013-注释来自网络数据库的搜索结果
基于 ViNT 提取数据记录的 SRR,然后进行数据对齐以生成多类注释包装器。
2010-ViDE:一种基于视觉的深度网络数据提取方法
布局函数 (LF)
外观特征 (AFs)。这些函数捕获数据记录中的视觉函数。
内容函数 (CF)。这些特征暗示了数据记录中内容的规律性。
数据提取标准
数据提取过程
首先通过PFs特性,调整阈值对数据区域进行分框,过滤噪声块,判断噪声块位置是否左对齐,数据可视块,聚类块,数据块对齐
基于视觉的数据记录包装器 (f,l,d)
我们的方法包括四个主要步骤:可视块树构建、数据记录提取、数据项提取和可视化包装器生成。
2013_从深网可视化提取数据记录
4.3 基于机器学习的模式识别 从相似网页中提取对应模式的数据(从候选框中选择样本,将其坐标投影到最终的特征向量,然后使用softmax进行分类)4. 4 基于机器学习的本地化
《基于视觉信息处理的深度网络数据提取》
五、基于模板的文本识别
主要步骤是
六、基于语义标签的文本提取七、基于词库的信息提取