赶紧收藏!咨询必备的数据技巧!
优采云 发布时间: 2022-05-14 12:15赶紧收藏!咨询必备的数据技巧!
数据的三大法宝
现在祭出三大法宝:Excel、VBA 以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。
Excel是迄今为止最简单最便捷得处理数据的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测,基本没有天花板,千万不要以为会了 VLookup 及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset / Cells / Row / Range 等函数用到极致,这样大多数 Financial Model 会做得非常灵活,而且各种数据查询及匹配工作会达到部分 SQL 的处理水平。
VBA会让 Office 的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在 Office 的各套软件之间实现信息同步。许多软件都是基于 VBA 完成的,最重要的没有版权问题。
爬虫我需要细说一下和重点说一下。因为这是解决题主多次提到的数据找不到的问题。所谓爬虫当然不是下图的虫子。
而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。用 Python 或者 Go 等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者 Excel,然后作分析以及长期监控。
网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的 Insight(将信息转化为知识和洞察)。
亲眼所见一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用 Ctrl C+Ctrl V 记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。
然而其实这就是一个程序员用 Python 做好爬虫、结构化数据和最后分析的简单事情,于是出手相助才有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。
另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,下面的图表结合了从挂号网抓取的数据以及宏观数据。
当然,给基金干活,数据的可视化很重要,于是用了文图,将图表画得很炫,逼格顿时提高。并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。
一些炫目图标的效果如下。下图是关于世界各国的智商分布
另外,还可做许多比较酷的事情,获取真正的 Insight 。技术方面,Python 写爬虫非常方便,调试正则这个网站很不错Online regex tester and debugger: JavaScript, Python, PHP, and PCRE。
等待改变的Professional Service行业
咨询、投行、投资、审计、*敏*感*词*等等,笼统得被称之为 Professional Service,一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行业。然而,Professional Service 除了在上个世纪用上 Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。
所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值。
第一款:选址应用
选址是现在许多公司头疼的难题,以前完全是拍脑袋。因此我们开发出这样一套工具,帮助公司能够更理性更多维度得选址。
下图,我们抓取多个数据源并完成拼接,根据用户的快递地址,勾画出某时尚品牌用户的住址,帮助其选址在北京开门店。
下图,我们抓取多个数据源并完成拼接,根据大型超市及便利店与某类型餐馆在广州地区的重合情况,帮助某饮料品牌选定最应该进入的零售店面。
第二款:数据可视化
我们在工作中也深刻觉得以前制作图表和展示数据的方式太low、太繁琐,我们希望去改变这个现状,于是开发了一套基于Web来制作图表的工具文图。远有 Excel / Powerpoint 对标,近有 Tableau 对标。
下图是文图丰富的案例库及模板库。
下图是简单的使用界面及丰富的图表类型。
下一步的工作:
最后,希望有一天它能部分替代已经在江湖上混迹二三十年的 PowerPoint 及 Excel 。