网页表格抓取(网页大数据——如何利用互联网收集数据并应用)

优采云发布时间: 2022-03-07 23:22

　　George Gottlob教授是牛津大学计算机科学系数据研究中心主任，也是量化金融研究中心的创始人。他的分享主题是“Web Big Data - How to Get Data and Apply”。

　　以下为演讲原文

　　在过去的 10 到 15 年里，数据提取一直是我研究的一个重要领域，今天我将描述如何使用 Internet 来采集数据。

　　互联网不是数据库

　　数据存在于我们的日常生活中，数据对当今的发展至关重要。很多人说互联网是最大的数据库，这是不准确的。互联网不是数据库，互联网只是数据的集合。这些数据是非结构化的，非结构化数据以各种形式存在，因此结构化检索是不可能的。

　　例如，假设我想在网上列出维也纳所有满足一定条件的公寓，条件是他们有阳台，价格低于 50 万美元，附近有很多意大利餐馆，但没有结果在互联网上。因为互联网不是数据库，所以只能搜索数据库。

　　那么如何将互联网变成一个庞大的数据库呢？数据是结构化的，我们可以创建相应的结构，我们必须为此提取数据。由于今天的时间问题，我不会过多的理论，我会告诉你如何使用它。

　　一个网页有很多标签，左边展示了网页的结构，但是网页是如何采集信息的呢？我们从标签中得到相应的信息。比如我想采集这个网页上的所有电话号码，网页上会有一个电话号码标记，树形结构上的*敏*感*词*标记就是电话号码。

　　此外，还需要研究底层语言和逻辑。对于计算机科学家来说，逻辑非常重要。然后决定你想从网页中挖掘什么样的信息。这些数据记录是一些非常基础的数据源。如果有人想做编程，就需要做这个语言，这个语言可以帮他找到很多网页的特殊性，和其他的网站，属性，图片，JAVA语言都很重要，因此您可以从一种语言跳转到另一种语言。

　　同时里面有一个逻辑，必须进行可视化处理，同时还需要一个可视化的工具。在设计产品和搜索产品时，有上层和下层，包括大数据、数据库编程和设计。可视化的发展意味着自动化工具可以使挖掘信息的过程更加可视化，并将成为一个自动化的过程。

　　例如，从 ebay 页面中挖掘相关链接。编程语言如图所示。这些路是单一的数据，表示数据属于哪里，页面数据是什么语言。但是仅仅做这种语言是不够的。我们需要从数万或数百万个页面中爬取和挖掘数据，所以我们将使用云。我们在云中拥有数据，并使用云来做这样的工具。

　　在数据挖掘方面，我们有本地化的内容挖掘和基于云的内容挖掘。2001 年，我与他人共同创办了一家为客户提供了很多帮助的公司。以下是一些展示数据提取重要性的使用场景。

　　我们曾经有一些用户是电子产品的零售商。对他们来说，不仅要考虑市场情况，还要考虑竞争对手的情况，包括日常的价格、成本、消费趋势、产品结构信息等。这些数据对他们来说是很难获得的。然而，实现自动数据挖掘是非常重要的。我们得到了一份电子产品清单，该表列出了客户的竞争对手，并且可以显示他们在哪些方面做得更好。因此，客户可以看到可以改进的领域，例如价格或竞争力。

　　第二个具有代表性的场景是对冲基金。房价指数由国家统计局定期公布。它影响不同行业的股票价格。如果能在国家统计局公布之前预测房价，就可以进行很好的推测。

　　第三种情况是建筑公司投标。投标人来自世界各地，有关潜在竞争对手的信息既昂贵又不完整。但我们所做的事情对投标人来说是当场的。

　　全自动数据挖掘

　　英国有 15,000 多处房产网站，还有少数没有完全覆盖的骨料，这对全自动化挖矿技术的要求很高。因为尽管这些信息很容易获得，但手动或*敏*感*词*处理数据的成本太高。目前没有完全自动化的采矿工具或技术。所以我和牛津大学的一位教授一起研究固化或形式化的数据挖掘，这样机器就可以自动挖掘数据。

　　这张图片中的黑点是指向 URL 的链接。这是一个源数据项，我们在其中构建黑盒来更改数据，从数千万页到大型数据集。

　　上图显示了来自不同来源的两种类型的知识。就像孩子学习知识一样，学校里很多人都会告诉他规则，他学到的就是规则。所以这是从机器学习到基于规则的推理的转变。这对研究人员来说非常重要。右边是通过规则构建的推理，我们将其自动化。有两种类型的规则，标准规则和其他规则。

　　我们在 2015 年创建了一家公司，为了使用这个系统和规则，我们需要识别和对齐对象、填写表格、块分析和对象丰富以及云支持，以便更有效地提取信息。我们使用上述语言从数千个网页中提取容量信息，规则也需要语言。在二手车、房地产等很多领域都可以实现自动化的数据抽取。如果字段很简单，20天就可以形成相应的规则。但也有一些非常复杂的领域，每个领域都有不同的特点，每个国家都有自己的语言，这些都是需要克服的问题。

　　当前深耕知识图谱技术

　　最后介绍一下我们目前的研究工作——知识图谱。知识图谱可以非常清晰地管理大量的知识。它通过识别信息改变了人们的生活，从而形成了一个非常庞大的知识世界。许多公司都追随我们的研究脚步，包括 Facebook、亚马逊等。当然，小公司也希望利用知识图谱来采集员工、客户、竞争对手、价格等信息，从而提高业务质量。

　　这个知识体系（绿色标记）的核心是推理，其中收录许多规则和许多外部接口。接口之一是外部数据的提取，主要来自互联网。另外有内部知识，数据库之间也有一些关系，可以很方便的接入物联网。事实上，这是一个推理引擎，我们的客户包括中央银行和其他银行。基于此，可以开发许多应用程序，例如信用报告。交易中的欺诈也可以使用基于规则的系统进行检测。它可以用来检测公司贷款的真实性以及是否存在欺诈贷款的倾向。

　　上图显示了公司的所有权。实际上，公司之间的所有权结构往往非常复杂。该系统可用于理清公司之间的关系，提高公司管理水平。具体可以根据股份数量确定控股公司。此外，如果两家公司共同拥有另一家公司，这些信息很难用SQL进行处理和查询，但使用该方案可以更方便地管理和提高计算速度。

0

2022-03-07

网页表格抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页表格抓取(网页大数据——如何利用互联网收集数据并应用)

0 个评论

发起人