抓取网页数据工具(玩玩数据可视化,却像狐狸捉刺猬——无从下手)

优采云 发布时间: 2021-10-14 16:14

  抓取网页数据工具(玩玩数据可视化,却像狐狸捉刺猬——无从下手)

  ——————————————————————————————————————————————————————————— ———————————

  我被问到最多的问题之一是“您使用什么软件进行数据可视化?”很多人热衷于玩数据可视化,但他们就像狐狸捉刺猬一样——无从下手。以下是我正在使用或已经使用的一些有用的工具和资源,主要分为三个部分:数据排序→数据绘图→最终数据动态交互。

  我收到的最常见问题之一是,“您使用什么软件来可视化数据?”很多人都对使用他们的数据感到兴奋,但不知道如何去做,甚至不知道如何开始。以下是我使用或曾经使用过的工具以及我拥有或发现对数据可视化有帮助的资源 - 从组织数据到图表和图表,最后是*敏*感*词*和交互。

  ——————————————————————————————————————————————————————————— ———————————

  整理数据

  整理数据

  

  by 昏昏欲睡的麻雀

  数据几乎从来都不是你需要的格式。也许你有一个逗号分隔的文件,你需要它是 XML 格式;或者你有一个需要进入 MySQL 数据库的 Excel 电子表格;或者数据停留在数百个 HTML 页面上,您需要将它们全部放在一个地方。数据组织并不是非常有趣,但值得了解这些工具/语言。您最不希望受到数据格式的限制。

  数据往往不会出现在你想要的脸上。你需要一个 XML 格式的文件,但你只有一堆用逗号分隔的数字;你需要一个 MySQL 数据库,但只需要一个 EXCEL 电子表格;你需要把所有的数据组织在一起,但是你发现数据还是上百种在设计好的HTML页面中组织数据并不好玩,但是下面的工具/语言值得掌握。你不想在数据格式转换上不知所措!

  PHP

  PHP 是我学到的第一种非常适合 Web 的脚本语言,所以我对它非常满意。我经常使用 PHP 将 CSV 文件转换为某种 XML 格式。函数 fgetcsv() 做得很好。它还可以很好地连接到 MySQL 数据库或调用 API 方法。

  资源:资源:

  PHP

  PHP 是我学习的第一种脚本语言。非常适合网络应用,使用起来非常爽。我经常使用 PHP 将 CSV 文件转换为 XML 格式。 fgetcsv() 函数非常有用,也可以用来转换为 MySQL 数据库或调用 API。

  蟒蛇

  大多数计算机科学类型 - 至少是我在 PHP 工作过的那些 - 嘲笑 PHP 并选择 Python 主要是因为 Python 代码通常结构更好(作为要求)并且具有更酷的服务器端功能。我最喜欢的 Python 玩具是 Beautiful Soup,它是一个 HTML/XML 解析器。这意味着什么? Beautiful Soup 非常适合屏幕抓取。

  资源:

  蟒蛇

  大多数计算机技术爱好者——至少是我的同事——鄙视 PHP 并钦佩 Python,因为 Python 代码具有更好的结构(这个,必须~)和更酷的服务器终端功能。我最喜欢的 Python 工具是 Beautiful Soup,它是一个 HTML/XML 解析器。它是做什么用的? Beautiful Soup 用于利用屏幕截图。

  MySQL

  当我有大量的数据时,比如趋向于数十万的量级——我使用 PHP 或 Python 将其粘贴到 MySQL 数据库中。 MySQL 允许我以任何我喜欢的方式对数据进行子集化。

  资源:资源

  MySQL

  当我有大量数据时——有成千上万的数据就像天上的星星一样——我使用 PHP 或 Python 将数据放入 MySQL 数据库中。 MySQL 允许我以任何我想要的方式对数据进行排序。

  R

  啊,好老R。这是统计学家使用的,几乎没有其他人使用。其他人都在他们的计算机上安装了它,但还没有开始学习它。我使用 R 进行分析。但有时,如果条件比我在 MySQL 中使用的条件更复杂,我会使用它从数据集中提取有用的子集,然后将它们导出为 CSV 文件。

  资源:

  啊哈,R越来越好了~!统计学家用R,其他人基本用R。其他人在电脑上安装R,安装后基本不关心,不学。我主要使用R来分析数据。有时,如果情况比我使用 MySQL 处理输出的 CSV 文件更复杂,我也会使用 R 来提取数据的子集。

  微软 Excel

  我们都知道这个。当我的数据集很小或者我想点击鼠标时,我会不时使用 Excel。

  微软 Excel

  地球上的每个人都知道。当我的数据集很小或者我只想点击鼠标时,我用Excel来做。

  ——————————————————————————————————————————————————————————— ———————————

  图表和图表

  图形图表

  

  好的,数据已处理、格式化并准备就绪。现在是可视化的时候了。我用于静态图表和图形的软件取决于手头的任务,所以我尽量不限制自己使用任何软件。例如,R 适合快速获得结果,但不适合 Web 应用程序。

  好了,数据已经处理完毕,格式正确,万事俱备,是时候进行可视化了。用于制作静态图表的软件取决于手头工作的性质,所以我从不限制自己只使用某种软件。例如,软件 R 非常适合要求快速的结果,但不适合网络应用。

  Adobe Illustrator

  我使用 Adob​​e Illustrator 制作出版物级别的图形。我在《纽约时报》时因需要学会了如何使用它,并且从那时起就一直很享受它。您可以通过简单的点击和拖动来操作图表的每个元素 - 这可能是一种祝福,也可能是一种诅咒。

  我使用 AI 绘制出版物级别的图表。在时代杂志工作的时候,我不得不学习使用人工智能,然后我就迷上了人工智能。您可以通过简单的点击和拖动操作来操作图表中的任何元素——这是一把双刃剑。

  资源:

  R

  如果您有一种特定类型的(非*敏*感*词*、非交互式)统计可视化,R 可能已经做到了。 R 是免费的,有无数可用的库。如果您找不到适合您需要的库,您始终可以自己编写脚本。 R 的一个很酷的地方是您可以将图形保存为 PDF,然后在 Adob​​e Illustrator 中对其进行润色。

  R 基本上可以做你能想到的所有数据可视化方法(非*敏*感*词*、非交互)。 R 是一个免费的开源软件,提供了无数的图表资源库。如果找不到自己需要的图表资源库,也可以自己写一个。最酷的是,在 R 中你可以将图表保存为 PDF,然后将其导入 AI 进行改进。

  资源:

  PHP 图形库

  我对 PHP GD 库的经验有限。有几个 PHP 绘图包可用,但我还没有找到一个我非常喜欢的包,所以我通常更满意用 GD 库绘制我自己的图形。 Sparklines PHP 图形库也不错。

  我只觉得 PHP GD 库有限。有一些图表包可以使用,但我找到了一个我喜欢的。因此,我更多地使用GD库来绘制自己的图表。 PHP谱线图库也很不错。

  资源:

  HTML + CSS + Javascript

  您可以使用一些简单的 HTML 和 CSS 做很多事情。您可以制作图表,当然也可以制作表格以及控制颜色和大小。例如,您在 Web 上看到的许多标签云只是 HTML 和 CSS。将 Javascript 融入其中,您就拥有了一个派对,即交互功能。

  通过一些简单的 HTML 和 CSS 可以实现许多惊人的数据可视化。您可以制作图形和表格,还可以控制颜色和大小。例如,Internet 上常见的标签云是使用 HMTL 和 CSS 实现的。结合 JavaScript,您就有了一个交互式设计工具箱。

  资源:

  Flash/动作脚本

  Flash 和 Actionscript 以*敏*感*词*和移动数据而闻名,但它也可用于静态内容。如果您想为您的可视化添加交互(如突出显示或过滤),这非常好。我从头开始做了一些工作,还使用了 Flare,Actionscript 可视化工具包。

  资源:

  Flash 和 Actionscript 以制作动态数据表而闻名,但它们也适用于处理静态数据。如果您想在可视化图表中添加高亮或过滤等动态操作,这将非常有用。我从头做了几张表格,然后用Actiongscript的配套可视化工具Flare来演示。

  微软 Excel

  我很少使用 Excel 制作图形。如果我需要一些非常快速的东西并且数据已经在 Excel 电子表格中,我会点击该图表按钮。

  我很少用Excel做图表,除非我赶时间而且数据已经是Excel格式,我只用Excel自带的图表。

  资源:

  ——————————————————————————————————————————————————————————— ———————————

  *敏*感*词*数据

  数据动态

  

  创建*敏*感*词*和交互式数据可视化的选项有多种,但我只使用这些选项(并且在大多数情况下,您在网络上看到的内容占主导地位)。

  创建动态和交互式数据可视化的方法有很多。我只用了几个(大部分都是网上能看到的)。选择如下:

  处理

  是的,它叫做处理。我见过大多数设计师使用它,但没有理由不能在其他地方使用它。 Processing 使用画布比喻,您可以在其中绘制和制作草图,然后从中获取 Java 小程序。创建处理程序是为了让非程序员也能使用程序化的优点。

  资源:

  是的,是的,它叫做处理。我见过大多数设计师使用它,没有理由不使用它。 Processing 提供了一种类似画布的东西,可用于制作草图。 Processing 让非程序员也能精通编程。

  Flash/动作脚本

  Flash 和 Actionscript 最近一直是我的兴趣点——主要是因为就 Web 而言,Java 小程序已经死了。您在《纽约时报》、Stamen Design 和 Web 应用程序等地方看到的交互式/*敏*感*词*可视化通常是使用 Flash 和 Actionscript 实现的。不知道是不是Flash?告诉故事标志是在您正在查看的任何内容上单击鼠标右键。有关更多详细信息,请查看我之前关于如何学习用于数据可视化的 Actionscript 的帖子。

  最近一直在关注Flash和Actionscript,主要是Java程序在Web方面太弱了。从纽约时*敏*感*词*始,你在Stamen 设计和web 应用中看到的动态交互可视化通常是Flash 和Actionscript 的应用。不确定是否使用 Flash?显而易见的方法是右键单击您看到的内容。更多详情请查看我上一篇文章:如何学习Actiongscript进行数据可视化。

  资源:

  呼,太多了。我一开始列出了 10 个工具和资源,并且它一直在增长。我没有意识到我用了这么多东西。它只是表明,对于任何给定的工作,都有一种合适的工具和一种不合适的工具。

  哦,写得太多了。我只是想列举一个收录 10 个工具和资源的列表,但它本身一直在增加。没想到用了这么多东西。对于任何给定的任务,总会有最合适的工具和最不合适的工具。

  令人惊奇的是,这些只是我使用的工具。还有很多其他的。您是否使用列表中未列出的内容来可视化数据或了解其他有用的资源?

  好消息是,这些只是我个人使用的一些工具,还有很多我以前没有使用过的其他工具。您是否使用过其他列表中未列出的数据可视化工具,或者了解其他有用的资源?一起分享吧。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线