文章采集组合工具( Tableau效果不好,我们可以使用第2大区中的「筛选器」精简图表)

优采云 发布时间: 2021-11-27 05:00

  文章采集组合工具(

Tableau效果不好,我们可以使用第2大区中的「筛选器」精简图表)

  

  这个时候,我们还是有问题。作者过多导致图表过长不完整,渲染效果不好。我们可以使用第二个区域中的“过滤器”来简化图表。

  比如我们只需要评论总数前20位的作者。这时候就需要用到排序了。我们可以使用Tableau自带的排序功能“快速表计算”。

  首先将记录数拖到第二个区域的标记面板中,在“快速表计算”中右击选择“排序”:

  

  然后将计算出来的总数(记录数)拖到上面的过滤器中,点击下一步进入排序设置,我们设置右边的间隔为20,这样图表就会显示前20列的总数。:

  

  此外,我们还可以在图表中添加平均值和中位数等辅助线。

  将“记录数”和“作者”分别拖到列/行后,点击左侧第一个区域的“分析”,将平均线拖到右侧第三个区域。该行将显示如下。拖放到第一个:

  

  如果我们要导出图片,我们可以在软件顶部的“工作表”选项卡中选择导出图片,但是这样的图片经过测试没有直接截图那么清晰:)

  我们还可以“合成”多个图表,即创建一个新的“仪表盘”,您可以在其中对生成的图表进行排序并以任何您想要的方式放置它们。

  如果需要演示和交互效果,我们还可以将“仪表盘”组合成“故事”。

  其他图表类似,您可以自己尝试一下。

  操作中的 Tableau

  双测图

  此图表使用相同的垂直轴(作者)来显示一张图片的喜欢和评论数量。优点是信息量比两张单张图片大。

  

  效果比较简单。将测量中的喜欢和评论拖放到第三个区域的列中。

  

  散点图

  散点图用于探索两个变量之间的相关性。比如我们可以用评论和喜欢做散点图来找出两者之间的关系。

  

  我们将测量中的评论数和点赞数拖到第三个区域的行/列,然后选择智能提示右侧的散点图。

  

  现在,图片上什么都没有,我们要在表格中显示作者信息,最好从形状上看出作者等关系。

  我们将“作者”从度量标准拖到第二个区域中的“颜色”和“标签”。不同的作者会以不同的颜色显示,图中也会显示作者的名字。

  然后,将测量中的“赞”拖到“大小”,图片中圆圈的大小将反映作者获得的赞数。

  

  那么,我们要研究评论和点赞的相关性,可以在第一区的“分析”中引入“趋势线”

  

  这里可以看到两个值:R平方值和P值。

  简述它们的统计意义:

  这里P值小,相关模型更显着,模型拟合效果也可以接受。因此,您越喜欢文章,您的评论就会越多。

  柱状图和折线图的同轴显示

  图表一般用条形图表示变量数量的变化,用折线图表示数量增加或减少的幅度,即变化的趋势。

  

  在这张图中,我们需要用到的数据是“发帖日期”和“记录数”,也就是文章的数量。

  由于我们的数据采集周期是从2017年3月27日到2019年4月23日,为了数据的完整性和客观性,我们选取​​了2017年4月上旬到2019年3月下旬的完整两年时间段.

  我们先过滤时间,将日期拖到第二个区域的过滤器中,选择“日期范围”,选择我们想要的间隔:

  

  然后将第一个维度中的“日期”拖到列中,点击列上的日期,按月显示数据:

  

  我们将记录数拖到第三个区域的行,出来条形图:

  

  然后我们做一个折线图。

  将记录数拖到第二个区域的标记处,在“快速表计算”中选择“百分比差异”,计算每个月之间的相对百分比差异:

  

  然后将其拖到区域第三行,将其对应的标记选为一条线:

  

  之后,我们需要合并两个坐标轴,选择该行最右边的总和(记录数)(三角形),右键下拉菜单选择双轴:

  

  空值显示在图的底部。我们点击它并选择“从默认位置显示数据”。

  颜色也需要再次处理。

  

  我们可以在如图所示的条形图中改变条形的颜色:

  

  堆积图

  Matrix发布的文章有多少篇在首页?

  理论上,网页不直接提供此类数据。这里我根据点赞数做一个简单的猜测:文章 超过50个就认为是首页了,但这有点武断,因为确实有文章进入主页后不超过50个赞。因此,图片上显示的最后一个主页文章 可能低于实际值。

  

  在时间上,我们选择了数据最完整的2018年全年。

  过滤器选择年份为2018年,然后将“发布时间”和记录数分别拖到列和行。发布时间选择以“月”显示,标签改为条形图显示:

  

  这时候就需要解决一个问题:将所有记录(文章)按照点赞数0-50及50以上进行分组,得到堆叠图:

  我们需要使用Tableau中的分组功能,在测量中选择“Like”并右键创建一个“分组”

  

  多选(0-50)和(51到最后)和分组:

  

  分成两组后,维度中出现了一个新的like(组)1:

  

  我们将like(group)1直接拖到第二个区域标记中的“颜色”,堆叠的图像就完成了。

  

  词云插图

  最后说一下词云图的*敏*感*词*法:

  词云图中的每个词一般都对应一个特定的值。值越大,字的字体越大。

  我们要创建一个词云图,根据点赞数显示作者姓名。我们分别将“喜欢”度量和“作者”维度拖到行列中。

  然后在智能提示中选择填充气泡图。

  最后,将标记更改为第二个区域中的文本:

  

  可视化教程总结

  低门槛工作流程

  本文的初衷是通过实践构建一个简单的数据可视化Workflow。因为在我看来,每个人都应该有选择工具的权利和能力,以突破交错的专业“代沟”,提升自己的竞争力。

  即便是在专注于实际操作,更像少数极客的平台上,对于大多数人来说,编程仍然存在障碍。

  任何事情都有门槛,但我们能做的就是不断降低这个门槛,让更多的人感受到“数据很美”。

  工具潜力未充分挖掘

  篇幅有限,本文对工具的介绍并不全面,可以达到更高的水平。

  比如我们要对Matrix文章的调性做数据分析,其实Web Scraper也可以在跳转链接后自动抓取数据,也可以跳转到文章通过 Web Scraper 的标题链接。获取文章页面“标签”维度的数据,分析文章作者喜欢写哪些类型,文章读者喜欢哪些类型。

  再比如,我们可以让 Web Scraper 跳转到作者页面,获取作者写的总字数。这时候我们可以配合Tableau的参数化计算领域,找到一些新的角度,比如计算点赞数/写字数,可以看出作者对字数的控制能力。

  这样的角度还有很多,等你来挖掘。

  工具的限制

  再好的工具,也有其自身的局限性。

  与Python、D3、R、Echart等“正统”数据处理语言相比,Web Scraper首先缺乏实时性,也就是说无法时刻监控网页上的数据变化。取数据必须手动启动,不能提前调度。自动化程度不高,数据采集需要在Chrome中模拟翻页和点击,耗时较长。而且,Web Scraper 和 Tableau 都存在一定的性能瓶颈。当需要处理的数据为数百万或数千万时,软件的响应速度远不及编程语言。

  因此,工具的出现并不意味着编程已经过时。只是这些工具也可以让普通人上手进行一些灯光场景数据分析。比如做新媒体的时候,需要分析竞品。这时候工具的优势在于,说明从数据采集到分析,不需要太多的编程知识。

  对于那些数据量巨大、网页抓取不便、对视觉输出样式要求高的重场景数据分析,编程工具会更合适。

  最后简单说说我对数据可视化的理解。

  我们谈数据可视化

  数据可视化的本质

  数据可视化是有统计渊源的,但不仅仅是严格意义上的传统图表才可以称为可视化。无论是我们用来演示的传说,基于天气模型的R语言专业数据分析,还是好奇日报的“好奇小数据”等数据新闻,其实都是数据可视化。

  可视化的本质是什么?

  著名可视化作者 Nathan Yau 表示:

  我们拥有的大量数据反映了现实世界,然后我们对其进行分析,我们得到的不仅是数据的相关性,还可以了解我们周围正在发生的事情。反过来,这些故事可以帮助我们解决现实世界中的问题,例如降低*敏*感*词*率、提高健康意识、改善高速公路的交通状况,或者只是增加我们的知识。

  数据可视化的本质是求真。通过数据——世界的真实反应,我们可以发现各种事件之间的相关性和事件的发展趋势,从而发现一些问题,进而找到解决这些问题的方法。为了让这个世界变得更美好。

  发现问题,解决问题,并通过图表和图形将您的想法顺畅地传达给读者。我认为这是数据可视化的第一个本质。

  从本文前几章的工具教程可以看出,该工具上手不难,但数据可视化上手难度较大。也就是说,观想的“功”简单,“道”难。

  “道”是问题

  图片的最大价值在于它们迫使我们注意到我们从未预见到的事情。——约翰·图基

  当我开始可视化 Matrix 的 文章 时,我需要通过不断提出问题来推进可视化:

  

  我的答案:

  当然,在可视化的过程中,你最好专注于一个核心问题。有时,核心问题来自您的核心需求。比如对于Matrix,我的核心问题是:如何写一篇热门文章文章?

  这个问题带入了数据的解读,可以转化为:什么样的文章最受大家欢迎?

  让我们回顾一下最受欢迎的文章:

  

  我们可以看到最受欢迎的文章高度集中在“指南”和“教程”中。一方面,这说明少数读者有强烈的学习欲望,因此对教程类感兴趣。@> 更感兴趣。另一方面,这些文章中大家发来的“点赞”更像是“采集”,也就是某种标记,方便你在需要的时候找出来重新阅读。

  这是题外话。许多互联网产品将“喜欢”、“喜欢”和“采集”联系在一起,这会更符合一些用户的习惯。(我个人用赞作为采集)

  以第三方微博客户端Moke为例:

  

  现在,如果你想开始可视化之旅,最好对已经收到的数据有一个核心需求采集(你想得到什么),这个核心需求会激发你去寻找核心读取数据时遇到的问题,让你可以发现更多的小问题,让你的可视化之旅自驱动。

  你不一定需要很酷的图表

  有时我们会看到一些很酷的图表,比如桑树图表:

  

  还有这个:(不知道名字)

  

  它们的共同点是生活中比较少见,读后让人神清气爽。但我建议您谨慎使用此类图表,因为它们太复杂,并且它们的可读性大大降低。图表上的视觉因素压倒了您想要传达的信息。

  文章开头的图片很多都是比较常见的图表,比如条形图、折线图、饼图等,选择它们的原因不是因为画图简单,而是因为它们更友好给读者。

  世界上最早的直方图出现在威廉·普莱费尔于 1787 年出版的《商业与政治地图集(第二版)》中。

  

  描述了苏格兰从1780年圣诞节到1781年圣诞节全年对不同国家和地区的进出口情况。

  直方图已经使用了 200 多年,这意味着它经受住了时间的考验,人们认识到它的简单性和可读性。

  无论是新兴图表还是传统图表,能让人们更好地理解、更符合阅读习惯的图表就是一张好图表。

  有时图表需要考虑传播性,我们当然可以选择一些新颖的设计,但最基本的要求是考虑可读性,你必须简单直接地将你想要表达的意思传达给读者。

  附录

  标题是踢门。一方面,它需要快速启动,另一方面,它必须强大,即它必须具有很强的执行力。你可以通过阅读文章来制作大部分图表。

  Web Scraper 和 Tableau 都可以导入“配置文件”。例如,Tableau 的配置文件类似于“源代码”。您可以看到我在导出图像过程中执行的所有操作。学习过程中如果有做不到的,可以参考。我都打包在百度云上(见后文)。

  Web Scraper的“配置文件”是一段json,可以复制到这里,然后就可以看到所有的selector结构和配置,直接运行数据即可:

  

  Tableau“配置文件”是Matrix.twbx。下载后,点击标签栏中的“文件”和“导入工作簿”。

  这里有一些可视化书籍和工具教程的链接。书中的知识是一种更高级的方法论,帮助你从“道”中理解可视化;本教程可以作为查询手册使用,阅读本文时可以阅读一些知识点。填补空白,

  书

  教程

  文章中使用的数据集和工具配置文件

  可用于练习的数据集(Excel)

  这里还有一些数据集网站,你可以在上面下载一些Excel文件,然后展开你的好奇心和大胆的可视化。通过几个例子,相信你一定能够掌握这套低门槛的可视化Workflow。

  标题图

  最后,欣赏 CLEVER°FRANKE 团队为 Red Bull 制作的派对数据可视化。也是本文的题图。

  

  完整的图片:

  

  本项目是CLEVER°FRANKE受邀与时尚品牌BYBORRE合作,为阿姆斯特丹舞蹈活动(ADE,电子音乐派对)的派对嘉宾定制数据可视化。

  

  手环上有检测器,可以检测运动、定位、温度、ID、分贝(声音)数据,然后通过互联网将这些数据实时传输给可视化团队。他们还配备了一套相当完整的可视化工作流程:

  

  他们使用java来分析数据。图片来自Processing creatice。

  派对结束时,每位宾客都将获得一份专属于自己的定制视觉纪念品。

  

  再看两个效果:

  

  你怎么看这些图表?简单地说,它们使用不同的颜色来表示温度、活动和位置(维度),并使用透明度来表示强度(度量)。

  数据很美,对吧?

  希望这个 文章 对你有帮助。

  本文为少数首发,同步WEB VIEW,未经许可不得转载。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线