网页表格抓取(网页大数据——如何利用互联网收集数据并应用)

优采云 发布时间: 2022-03-07 23:22

  网页表格抓取(网页大数据——如何利用互联网收集数据并应用)

  George Gottlob教授是牛津大学计算机科学系数据研究中心主任,也是量化金融研究中心的创始人。他的分享主题是“Web Big Data - How to Get Data and Apply”。

  

  以下为演讲原文

  在过去的 10 到 15 年里,数据提取一直是我研究的一个重要领域,今天我将描述如何使用 Internet 来采集数据。

  互联网不是数据库

  数据存在于我们的日常生活中,数据对当今的发展至关重要。很多人说互联网是最大的数据库,这是不准确的。互联网不是数据库,互联网只是数据的集合。这些数据是非结构化的,非结构化数据以各种形式存在,因此结构化检索是不可能的。

  例如,假设我想在网上列出维也纳所有满足一定条件的公寓,条件是他们有阳台,价格低于 50 万美元,附近有很多意大利餐馆,但没有结果在互联网上。因为互联网不是数据库,所以只能搜索数据库。

  那么如何将互联网变成一个庞大的数据库呢?数据是结构化的,我们可以创建相应的结构,我们必须为此提取数据。由于今天的时间问题,我不会过多的理论,我会告诉你如何使用它。

  

  一个网页有很多标签,左边展示了网页的结构,但是网页是如何采集信息的呢?我们从标签中得到相应的信息。比如我想采集这个网页上的所有电话号码,网页上会有一个电话号码标记,树形结构上的*敏*感*词*标记就是电话号码。

  此外,还需要研究底层语言和逻辑。对于计算机科学家来说,逻辑非常重要。然后决定你想从网页中挖掘什么样的信息。这些数据记录是一些非常基础的数据源。如果有人想做编程,就需要做这个语言,这个语言可以帮他找到很多网页的特殊性,和其他的网站,属性,图片,JAVA语言都很重要,因此您可以从一种语言跳转到另一种语言。

  

  同时里面有一个逻辑,必须进行可视化处理,同时还需要一个可视化的工具。在设计产品和搜索产品时,有上层和下层,包括大数据、数据库编程和设计。可视化的发展意味着自动化工具可以使挖掘信息的过程更加可视化,并将成为一个自动化的过程。

  

  例如,从 ebay 页面中挖掘相关链接。编程语言如图所示。这些路是单一的数据,表示数据属于哪里,页面数据是什么语言。但是仅仅做这种语言是不够的。我们需要从数万或数百万个页面中爬取和挖掘数据,所以我们将使用云。我们在云中拥有数据,并使用云来做这样的工具。

  在数据挖掘方面,我们有本地化的内容挖掘和基于云的内容挖掘。2001 年,我与他人共同创办了一家为客户提供了很多帮助的公司。以下是一些展示数据提取重要性的使用场景。

  我们曾经有一些用户是电子产品的零售商。对他们来说,不仅要考虑市场情况,还要考虑竞争对手的情况,包括日常的价格、成本、消费趋势、产品结构信息等。这些数据对他们来说是很难获得的。然而,实现自动数据挖掘是非常重要的。我们得到了一份电子产品清单,该表列出了客户的竞争对手,并且可以显示他们在哪些方面做得更好。因此,客户可以看到可以改进的领域,例如价格或竞争力。

  第二个具有代表性的场景是对冲基金。房价指数由国家统计局定期公布。它影响不同行业的股票价格。如果能在国家统计局公布之前预测房价,就可以进行很好的推测。

  第三种情况是建筑公司投标。投标人来自世界各地,有关潜在竞争对手的信息既昂贵又不完整。但我们所做的事情对投标人来说是当场的。

  全自动数据挖掘

  英国有 15,000 多处房产网站,还有少数没有完全覆盖的骨料,这对全自动化挖矿技术的要求很高。因为尽管这些信息很容易获得,但手动或*敏*感*词*处理数据的成本太高。目前没有完全自动化的采矿工具或技术。所以我和牛津大学的一位教授一起研究固化或形式化的数据挖掘,这样机器就可以自动挖掘数据。

  

  这张图片中的黑点是指向 URL 的链接。这是一个源数据项,我们在其中构建黑盒来更改数据,从数千万页到大型数据集。

  

  上图显示了来自不同来源的两种类型的知识。就像孩子学习知识一样,学校里很多人都会告诉他规则,他学到的就是规则。所以这是从机器学习到基于规则的推理的转变。这对研究人员来说非常重要。右边是通过规则构建的推理,我们将其自动化。有两种类型的规则,标准规则和其他规则。

  我们在 2015 年创建了一家公司,为了使用这个系统和规则,我们需要识别和对齐对象、填写表格、块分析和对象丰富以及云支持,以便更有效地提取信息。我们使用上述语言从数千个网页中提取容量信息,规则也需要语言。在二手车、房地产等很多领域都可以实现自动化的数据抽取。如果字段很简单,20天就可以形成相应的规则。但也有一些非常复杂的领域,每个领域都有不同的特点,每个国家都有自己的语言,这些都是需要克服的问题。

  当前深耕知识图谱技术

  最后介绍一下我们目前的研究工作——知识图谱。知识图谱可以非常清晰地管理大量的知识。它通过识别信息改变了人们的生活,从而形成了一个非常庞大的知识世界。许多公司都追随我们的研究脚步,包括 Facebook、亚马逊等。当然,小公司也希望利用知识图谱来采集员工、客户、竞争对手、价格等信息,从而提高业务质量。

  这个知识体系(绿色标记)的核心是推理,其中收录许多规则和许多外部接口。接口之一是外部数据的提取,主要来自互联网。另外有内部知识,数据库之间也有一些关系,可以很方便的接入物联网。事实上,这是一个推理引擎,我们的客户包括中央银行和其他银行。基于此,可以开发许多应用程序,例如信用报告。交易中的欺诈也可以使用基于规则的系统进行检测。它可以用来检测公司贷款的真实性以及是否存在欺诈贷款的倾向。

  

  上图显示了公司的所有权。实际上,公司之间的所有权结构往往非常复杂。该系统可用于理清公司之间的关系,提高公司管理水平。具体可以根据股份数量确定控股公司。此外,如果两家公司共同拥有另一家公司,这些信息很难用SQL进行处理和查询,但使用该方案可以更方便地管理和提高计算速度。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线