vba 网页数据抓取(【10周入门系列文章】第二大问题——数据分析工具)
优采云 发布时间: 2022-04-14 15:13vba 网页数据抓取(【10周入门系列文章】第二大问题——数据分析工具)
数据分析中存在三个主要问题:
关于第一个问题,看过我公众号“10周入门系列文章”的同学应该有一个大概的了解。
今天,我们来说说第二个大问题——数据分析工具!
对于数据分析,我一直强调核心是业务,业务的分析逻辑映射到数据分析的处理逻辑,数据分析工具是帮助我们取得成果的手段。
但是,你说工具不重要,它们很重要,就像什么样的路选择什么样的交通工具,合适的工具可以帮助我们更快地到达目的地。对应数据分析的不同方面,应该选择不同的工具,甚至更容易使用。
今天的文章 文章 是针对扫盲工具的。
PS:估计网上没有比这个更全面的了 一、 从工具属性和分析师需求上分
在企业中,数据分析师通常分为业务和技术两大类。两者的能力和工作内容有很大不同,对工具的要求也不同。
商业或技术
业务分析师往往在运营部、市场部、销售部等,根据所服务的业务部门的不同,可能会被称为数据运营、业务分析、会员分析、业务分析师等名称。之所以会出现这种差异,是因为各个业务线所考虑的具体问题不同,分析思路和系统也不同。日常工作更多是整理业务报表,针对具体业务做专题分析,对围绕业务增长需要用到的数据做计算、规划、规划。
技术分析师,通常在 IT 部门和数据中心。根据工作环节不同,分为数据库工程师、ETL工程师、爬虫工程师、算法工程师等角色。在中小型企业中,通常由技术兄弟负责所有这些流程。在大型企业中,一个标准的数据中心一般都有数据仓库、专题分析、建模分析等小组来完成数据开发工作,无论公司多大,也有专门的数据治理小组。这种区别的原因是需要一个多层次的复杂数据系统来产生数据。一个数据系统需要数据采集、数据集成、数据库管理、数据算法开发和报表设计的组合。这样,可以将散落在各处的数据采集起来,计算成常用指标,并以各种炫酷的图表展示。这里的每一个环节都需要相应的技术支持和人员工作,所以有不同的岗位。
PS:在找数据分析职位的时候,一定要分清是技术还是业务,是否符合你的专业定位。
分析师分为技术和业务,相应的工具也有这样的属性。
分析工具
对于初级数据分析师来说,玩Excel是必须的,数据透视表和公式的使用一定要精通,VBA是加分项。此外,有必要学习一个统计分析工具。SPSS 是一个很好的切入点。
对于高级数据分析师来说,使用分析工具是一项核心能力。VBA基本必备,SPSS/SAS/R至少要精通其中一种。其他分析工具(如 Matlab)视情况而定。
对于数据挖掘工程师……嗯,R 和 Python 是必须的,你必须编写代码来解决它。
代码工具
对于初级数据分析师,可以写SQL查询,有需要的可以写Hadoop和Hive查询,基本没问题。
对于高级数据分析师来说,除了 SQL 之外,还需要学习 Python,使用 Python 可以更轻松地获取和处理数据。当然其他编程语言也是可以的。
对于数据挖掘工程师来说,Hadoop一定要熟悉,Python/Java/C++至少要熟悉一个,Shell一定会用……总之,编程语言绝对是数据挖掘工程师的核心能力。
一张图来说明问题:
二、从企业数据应用架构划分
工具的使用还取决于企业的需求和环境。为什么小企业雇佣数据分析师用 Excel 做报告,而大公司雇佣数据分析师玩 Python 和 R?这取决于企业的数据架构。
从 IT 的角度来看,数据工具在实际应用中可以分为两个维度:
第一维度:数据存储层-数据报告层-数据分析层-数据表现层
第二维度:用户级-部门级-企业级-BI级
1、数据存储层
从数据存储设计到数据库概念和数据库语言,这方面不必深入研究,毕竟有专业的DBA。但至少了解数据是如何存储的,数据的基本结构和数据类型。SQL查询语言必不可少,精通才是最好的。可以从常见的select查询、update修改、delete删除、insert插入的基本结构和阅读入手。
Access是最基本的个人数据库,常用于个人或一些基础数据的存储;MySQL 数据库,这是部门级或 Internet 数据库应用程序所必需的。这时,关键是掌握数据库结构和SQL语言数据查询能力。SQL Server 2005或之后的版本,对于中小型企业来说,一些大型企业也可以使用SQL Server数据库,其实此时除了数据存储,还包括数据报表和数据分析。
DB2和Oracle数据库都是大型数据库,主要是企业级,特别是大型企业或者需要海量数据存储的企业。一般来说,大型数据库公司提供非常好的数据集成应用平台。
BI级别,其实这不是数据库,而是基于之前数据库的企业级应用的数据仓库。Data Warehouse,建立在DW机器上的数据存储,基本上是一个集各种数据分析、报表、分析、呈现为一体的商业智能平台。
2、报表/BI层
企业存储需要读取和展示的数据,报表工具是最常用的工具,尤其是在中国。过去,传统报表大多解决了呈现的问题,但现在衍生出一些分析报表工具,也会与其他应用交叉,制作数据分析报表。涵盖早期商业智能的功能。
Tableau、PowerBI、FineBI 和 Qlikview 等 BI(商业智能)工具涵盖了多层报告、数据分析和可视化。底层也可以连接数据仓库,构建OLAP分析模型。
3、数据分析层
其实这一层有很多分析工具,当然最常用的就是Excel了。
Excel软件,首先,版本越高越好用。当然,对于excel,很多人只掌握了Excel 5%的功能。Excel的功能非常强大,甚至可以完成所有的统计分析工作!但我也常说,有能力把Excel当作统计工具玩,比专攻统计软件要好。
SPSS软件:当前版本为18,名称也已更改为PASW Statistics;我是从3.0开始在Dos环境下编程分析的,目前版本的变化也可以看到SPSS社会科学统计包的变化,从Emphasis on Medicine、Chemical等开始多加和更加重视业务分析,现在它已经成为预测分析软件。
SAS软件:SAS其实比SPSS更强大。SAS平台化,集成EM挖矿模块平台。相对来说,SAS 比较难学,但是如果你掌握了 SAS 会更有价值,比如离散选择模型、抽样问题、正交实验设计等等还是 SAS 更好用,另外 SAS 还有更多学习资料。
其他还有 Python 和 R,后面会详细讨论。
4、表示层
表示层也称为数据可视化,上面几乎每个工具都提供了一点表示。但是,最常用的企业级应用程序是 BI,用于分析和报告。
PS:需要注意的是,这个分类不区分软件,只是想说明软件的应用。有时我们用数据库做报表分析,有时报表就是分析,有时分析就是呈现;当然,有时候呈现就是分析,分析也是报表,报表就是数据存储!三、4大工具盘点
以上就啰嗦了这么多,下面详细说说Excel、R、Python、BI。
>>>>Excel
适用场景:
1.一般办公需求的数据处理;
2.中小企业数据管理和存储(很多国企使用);
3.在校学生、教师做简单的统计分析(如方差分析、回归分析);
4.结合Word和PowerPoint制作数据分析报告;
5.数据分析师的主要分析工具(数据分析师的一些辅助工具);
6.部分商业杂志、报纸图表制作(数据可视化);
优势:
1.容易上手;
2.学习资源非常丰富;
3.你可以用Excel、建模、可视化、报告、动态图表做很多事情;
4.帮助你在学习其他工具(如Python、R)之前了解很多操作的含义;
缺点:
1.深入学习需要掌握VBA,还是很困难的;
2.数据量大时会卡住;
3.到Excel 2016,不借助其他工具,Excel数据文件本身只能容纳108万行数据,不适合处理*敏*感*词*数据集;
4.内置统计分析的种类过于简单,实用价值不大;
5.不同于Python、R语言等开源软件,正版Excel是需要付费的,比如我用office365.一年要300多块钱(但很值得)
>>>>R
使用场景:
借助扩展的第三方 R 包,R 几乎可以做任何需要数据的事情。就我们一般的数据分析或学术数据分析工作而言,R能做的包括但不限于以下几点:
1.数据清洗和排序;
2.网络爬虫;
3.数据可视化;
4.统计假设检验(t检验、ANOVA、卡方检验等);
5.统计建模(线性回归、逻辑回归、树模型、神经网络等);
6.数据分析报告输出(Rmarkdown);
R 容易学吗?
从我个人的角度来看,R入门是非常容易的。经过10天的强化学习,掌握R的基本使用、基本数据结构、数据导入导出、简单的数据可视化是绝对没有问题的. 有了这些基础,在遇到实际问题时,可以找到自己需要使用的R包,阅读R的帮助文档,以及网上的资料,可以比较快速的解决具体问题。
>>>>蟒蛇
R语言和Python都是需要编程的数据分析工具。不同的是,R专门用于数据分析领域,而科学计算和数据分析只是Python的一个应用分支。Python还可以用于开发网页和游戏。,做系统的后端开发和运维。
现在的一个趋势是Python在数据分析领域正在赶超R,并且在某些方面已经超越了R,比如机器学习、文本挖掘等部分编程领域,但是R语言在数据分析领域仍然保持着优势。部分统计。Python在数据分析方面的发展在很多地方借鉴了R语言的一些特性。所以,如果你还是一片空白,还没有开始学习,又想决定学R还是Python,建议从Python入手。
Python和R都比较容易学,但是如果同时学,很容易混淆,因为很多地方都非常相似,所以不建议同时学。等你掌握其中一个到一定程度,再开始学习另一个。
Python 能做什么?
1.网络数据爬取,使用Python可以轻松编写强大的爬虫爬取网络数据;
2.数据清洗;
3.数据建模;
4.根据业务场景和实际问题构建数据分析算法;
5.数据可视化(个人感觉不如R好用);
6.机器学习、文本挖掘等高级数据挖掘分析领域;
我应该学习 R 还是 Python?
如果因为时间有限只能选择其中之一学习,我推荐使用 Python。但我仍然建议了解两者,毕竟每个人都不一样。你可能在一些地方听说过,Python在工作中比较常用,但在工作中,解决问题才是最重要的。如果能用R高效解决问题,就用R吧。其实Python的很多数据分析特性都是模仿R实现的,比如pandas数据框,正在开发的ggplot可视化包模仿了R语言中非常有名的ggplot< @2.
>>>>BI
大多数分析师的日常工作是做报告,而数据分析师使用的报告较多的是BI。
BI代表商业智能。在传统企业中,它是一整套解决方案。有效整合企业数据,快速生成决策报表。涉及数据仓库、ETL、OLAP、权限控制等模块。
BI 工具有两个主要目的。一种是使用 BI 制作自动化报告。数据工作每天都涉及大量的数据,需要整理汇总,工作量很大。这部分工作可以交给BI自动化来完成,从数据正则化、建模到下载。
另一种是利用其可视化功能进行分析。BI的优点是提供了比Excel更丰富的可视化功能,操作简单,美观。如果你每天需要两个小时的绘图时间,BI 会缩短一半的时间。
BI作为企业级应用,可用于连接公司数据库,实现企业级报表的制作。本篇涉及数据架构,不再深入讨论。
关于BI,Tableau、PowerBI、FineBI、Qlikview等BI(商业智能)工具覆盖了报表、数据分析、可视化等多个层面。底层也可以连接数据仓库,构建OLAP分析模型。
就个人而言,为了快速启动数据分析和培养早期数据思维,BI工具无疑是最容易使用的。下一篇文章将教你如何搭建BI分析平台,学习操作BI工具!