excel抓取多页网页数据(所有网站都提供API吗?不幸的是没有。。)

优采云 发布时间: 2022-02-01 11:18

  excel抓取多页网页数据(所有网站都提供API吗?不幸的是没有。。)

  所有 网站 都提供 API 吗?

  不幸的是没有。鉴于 Facebook 必须限制信息的下载,您不得从 Facebook 下载任何信息(例如,甚至帖子)。我将讨论 API 的替代方案,但对于 Facebook,未经书面同意,您不能下载任何信息。

  如果 网站 提供 API,我可能会遇到哪些限制?

  · 编码

  如果您不知道如何编码,这是第一个问题。每个 网站 都需要个人方法,而不是看起来那么简单。

  · 格式

  用于减少信息浪费的常用格式是 JSON,但还有其他格式。您下载的数据需要以您想要的方式进行规范化、理解和存储(我可以猜到一个 .csv 文件)。这很耗时,而且代码并不总是稳定的。

  · 价格

  有时你会很幸运地找到一个免费提供信息的 网站。在大多数情况下,如果没有订阅计划,您甚至无法下载免费信息:请为备用计划做好准备。

  · 请求频率

  您不能只从数据库中下载全时、全速的千兆字节数据。流量会降低您的服务器速度,因此网站要非常小心并限制要执行的请求数量。您需要每 n 秒执行一次 GET 请求(从在线数据库下载信息的操作)。当然,整个过程可以自动化。

  · 容量限制

  大多数提供 API(除非它们都是开源的)的 网站 都是为了利润(现在您了解销售数据的含义)。如果您想下载大于一定大小的数据,他们会要求您付费。

  · 请求限制

  另一种限制下载的度量标准不是大小,而是请求数。例如,使用 Alpha Vantage 下载历史股票价格限制为每天 500 个请求。

  这些数字(例如每天 100,000 条推文的限制)可能看起来不是一个巨大的限制,但如果您经营一家拥有 500 名员工的公司,并且您的目标是建立一个巨大的 AI 预测模型,那么 100,000 条推文文本对于什么来说是一个荒谬的数量你想建立。

  2.网页抓取

  毕竟,网络爬虫已经成为我最喜欢的下载数据的方式,毕竟处理 API 从来都不是一件有趣的事情(如果你不相信我,请尝试询问)。

  一些 网站 有你可以直接在他们的网页上看到的信息列表。我要使用的示例之一是 Xtrawine。

  

  网站 收录数千条有关葡萄酒的信息。如果您是数据分析师,看起来不错!如果你用谷歌搜索,你会发现这个 网站 不提供开源 API。数据存储在他们的数据库中,您无权访问。

  您可以利用主页上已经可见的数据,而不是询问您连接到的数据库。此信息存储在附加到页面的 HTML 代码中。您唯一需要做的就是访问代码并编写一个算法,该算法遍历所有数千页并提取每瓶葡萄酒的信息并将其存储到 .csv 数据集中。

  

  这是为从该网页提取信息而编写的网络抓取算法的输出。你可以看到结果。我用 Pretty Soup 从 网站 中提取 HTML,但还有其他可用的 python 工具,这取决于你。

  网页抓取的缺点

  请注意,在线数据可能是公开的,但它不是商场。您不仅可以连接到任何 网站 并下载您想要的所有内容,这不仅不礼貌,而且还可能违反他们的政策。因此,如果您打算将此信息用于您的工作或研究,请注意您下载的内容和下载量。

  3.开源数据集

  最后一种下载数据的方法是找到已经准备好的数据。网站 像 Kaggle 或 data.world 有一系列开源数据集,您可以下载这些数据集进行试验。不幸的是,您不太可能找到您要搜索的内容。大多数信息都没有更新,如果您正在搜索特定的内容(例如价目表或营销列表),则必须使用前两种方法检索它。

  这些预制数据集何时有用?

  Covid-19 紧急情况就是一个例子。例如,如果您查看 Kaggle,您会发现关于 Covid-19 的每日更新数据集(大量信息)。研究人员可以为寻找基因相关信息做出贡献,并可以创建预测病毒传播的模型。

  你怎么认为?你知道其他下载数据的方法吗?

  (本文翻译自Michelangiolo Mazzeschi的文章《3 Ways to Collect Big Data with your PC》,参考:)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线